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“一 


刘 征 


Nutanix 路 坦 力 资深 架构 师 ，EXIN 首 批 国内 
DevOps Master 和 DevOps Professional 
认证 讲师 ， 持 有 红 帽 RHCA 认 证 和 AWS 高 
级 架构 师 认 证 ， 说 熟 企业 数据 中 心 的 IT 服务 
管理 。 目 前 致力 于 推广 DevOps 相 关 的 理念 
和 实践 ， 在 DevOps 社 区 中 积极 地 参与 培训 
和 研讨 会 等 活动 ， 是 DevOpsDays 大 会 社 
区 在 中 国 的 核心 组 织 者 和 志愿 工作 者 。 


于 二 

前 ThoughtWorks 咨 询 师 ，EXIN 首 批 国内 
DevOps Master 认 证 讲师 。 拥 有 10 多 年 软 
件 行业 经 验 ， 以 及 服务 化 架构 、 持 续 交 付 和 
DevOps 转 型 等 方面 的 丰富 实践 经 验 。 国 内 
较 早 倡导 和 实践 微服 务 的 先行 者 ， 著 有 国内 
首 本 微服 务 架构 相关 图 书 《微服 务 架 构 与 实 
践 》， 是 西安 DevOps Meetup 活 动 的 联合 
发 起 人 。 


马 博 文 


前 ThoughtWorks 咨 询 师 ，AWS 认 证 助理 
架构 师 、 开 发 者 。 拥 有 多 年 Web 开 发 和 
DevOps 经 验 ， 熟 悉 持 续 交 付 、 微 服务 。 曾 
参与 翻译 《Scala 编程 实战 》《DevOps 实 
践 》 等 书 ， 是 西安 DevOps Meetup 活 动 的 发 
起 人 。 


曾 朝 京 

Micro Focus 资 深 解决 方案 顾问 ， 曾 参加 
EXIN 首 批 国 内 Devops Master 讲 师 认 证 培 
训 。 长 期 从 事 IT 运 维 管理 领域 咨询 工作 ， 曾 
为 能 源 、 金 融 、 航 空运 输 、 政 府 行 业 中 的 多 
个 大 型 企业 提供 IT 运 维 管理 规划 。 目 前 致力 
于 探索 DevOps 理 念 在 企业 IT 部 门 的 实践 。 


效 字 有 版权 声明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 
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开发 人 员 数 量 
图 0-1 每 日 部 署 次 数 与 开发 者 人 数 


























图 2-1 横 跨 需求 、 开 发 、 测 试 、 预 生产 和 生产 的 看 板 示 例 
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图 7-1 职能 导向 与 市 场 导向 
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图 12-3 ”高 绩效 组 织 有 着 更 快 的 部 署 速 度 和 更 短 的 平均 恢复 时 间 
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高 中 低 
图 14-1 高 、 中 、 低 绩效 组 织 的 故障 解决 时 间 








6.0 


4.8 


3.6 


2.4 


2 


0.0 


事件 路 由 器 目的 地 





] 长 
站 
Yr 
坚 
背 
EE 
赴 





监控 框架 


图 14-2 ”监控 框架 
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图 14-3 在 Etsy 使 用 StatsD 和 Graphite 展示 的 用 一 行 代码 生成 的 监控 





论坛 发 帖 数 








36 
24 
12 
0 
06:00 06:20 06:40 07:00 07:20 07:40 08:00 08:20 08:40 09:00 09:20 
国 代码 部 团 国 缺陷 论坛 的 新 帖 数 国 帮助 论坛 的 新 帖 数 
图 14-4 在 部 署 后 ， 用 户 论坛 中 对 新 功能 感 兴趣 的 用 户 数量 
0.4 
0.3 
0.2 
0.1 
Cal 0 10% 
0.0 sl 





—30 -20 一 lc 人 lo 20 30 














图 15-1 呈 高 斯 分 布 的 标准 差 (o) 和 均值 (4 ) 
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注意 这 些 告警 
总 是 被 触发 








9 月 1 日 9 月 3 日 9 月 5 日 9 月 7 日 9 月 9 日 9 月 11 日 9 月 13 日 9 月 15 日 9 月 17 日 9 月 19 晶 
图 15-2 每 分 钟 下 载 量 : 使 用 “三 个 标准 差 ” 规 则 时 的 过 度 告 警 
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内 容 提 要 


本 书 共 分 为 6 个 部 分 : 第 一 部 分 概述 DevOps 的 历史 和 三 个 基本 原则 ， 即 “三 步 工作 法 ”; 第 二 部 分 介 
绍 开启 DevOps 转型 的 过 程 ; 第 三 到 五 部 分 深入 探讨 “三 步 工 作法 ”的 各 个 要 素 ; 第 六 部 分 关注 如 何 将 安全 
性 和 合 规 性 正确 集成 到 日 常 工作 中 。 全 书 涵盖 40 余 个 DevOps 案例 ， 以 谷歌 、 亚 马 逊 、Facebook 等 全 球 知 
名 企业 和 组 织 的 实际 调查 结果 为 依据 ， 展 示 如 何 通 过 现代 化 的 运 维 管理 提升 管理 效率 ， 进 而 为 企业 赢得 更 
大 市 场 、 创 造 更 多 利润 。 
本 书 适合 所 有 互联 网 企业 和 传统 企业 的 从 业者 阅读 。 
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“以 平台 化 、 生 态 化 、 智 能 化 和 敏捷 为 主要 特征 的 数字 化 时 代 已 经 到 来 ， 需 要 我 们 采用 与 之 
匹配 的 工作 方法 。DevOps 作为 与 数字 化 相 适 应 的 方法 之 一 ， 其 作用 不 可 或 缺 。IT 人 员 要 实现 数 
字 化 转型 ， 必 须 学 会 此 方法 ， 否 则 将 难以 胜任 当前 和 未 来 的 工作 。 


一 一 李 长 华 ， 高 德 纳 公 司 ( Gartner ) 高 级 高 管 合伙 人 








“经 历 了 多 年 信息 化 实践 ,我 深 感 打造 坚强 IT 运 维 体系 和 能 力 对 支撑 企业 经 营 管理 的 重要 性 。 
接触 和 深度 了 解 DevOps 之 后 ,我 最 大 的 感受 是 ， 它 有 利于 在 改善 传统 “ 稳 态 IT” 运 维 体系 的 过 
程 中 寻 获 到 提升 价值 的 诀 穿 ， 也 是 构建 云 计 算 时 代 “ 敏 态 IT” 运 维 体系 中 不 可 或 缺 的 柱石 。” 

一 一 李 红 ， 中 国 中 钢 集 团 有 限 公 司 信 息 管 理 中 心 总 经 理 
































“对 很 多 人 而 言 , DevOps 已 经 不 是 一 个 陌生 的 概念 了 , 但 是 其 思想 精髓 该 如 何 融 入 传统 企业 
的 IT 管理 来 助力 企业 提升 商业 竞争 力 呢 ? 这 仍然 是 CIO 及 其 团队 面临 的 挑战 。 本 书 结合 48 个 著 
名 公司 的 案例 ， 介 绍 了 高 绩效 公司 是 如 何 利 用 DevOps“ 三 步 工 作法 ”原则 取得 成 功 的 ， 相 信 一 
定 会 使 读者 受益 诽 浅 。 























一 一 李 炜 ， 中 国 卫 通 集团 信息 中 心 主任 


“在 访谈 了 “DevOps 之 父 ”Patrick Debois 之 后 , 我 深刻 地 理解 了 “DevOps isthe Human Factor” 

这 句 话 的 真 诺 。DevOps 是 不 断 演进 的 , 不 是 能 够 被 固化 定义 下 来 的 标准 化 流程 体系 。DevOps 是 

一 场 关 于 工作 方式 的 革命 和 企业 文化 的 运动 ， 同 时 也 是 企业 数字 化 转型 中 高 效 团队 所 必 备 的 能 

力 。 本 书 是 继 《 凤 凰 项 目 》 之 后 ，Gene Kim 携手 全 球 三 位 DevOps 界 大 咖 的 打 易 之 作 ， 无 作 “ 全 
球 DevOps 畅销 书 ” 的 美誉 。” 

一 一 孙 振 鹏 ，EXIN 国际 信息 科学 考试 学 会 亚太 区 总 经 理 ，DevOpsDays 中 国 发 起 人 























“过 去 的 20 年 里 ， 中 国 大 型 商业 银行 逐步 构建 了 以 研发 、 测 试 、 运 维 团 队 为 主体 的 IT 组 织 
架构 ， 基 于 ITIL 建立 了 信息 系统 建设 和 服务 的 流程 。 然 而 ,金融 科技 浪潮 的 到 来 要 求 对 产品 进 
行 迭代 开发 、 敏 捷 测 试 、 快 速 部 署 ， 必 须 同时 满足 业务 连续 性 、 服 务 稳定 性 与 业务 快速 创新 的 要 
求 。 因此 , IT 体系 向 DevOps 转型 成 为 了 一 个 备 受 关注 的 课题 。 本 书 既是 国际 DevOps Professional 
认证 的 核心 教材 ， 也 为 DevOps 转型 提供 了 从 启动 到 实现 所 必需 的 理论 、 原 则 和 实践 案例 。” 

涂 晓 军 ， 中 国 农 业 银行 数据 中 心 总 经 理 


























“科技 属性 正在 成 为 企业 能 否 长 期 健康 成 长 的 核心 要 素 ， 以 个 性 化 和 最 佳 体验 为 核心 的 服务 
运营 模式 对 业务 快速 创新 迭代 能 力 提出 了 极 高 的 要 求 。DevOps 为 技术 组 织 提供 了 卓越 的 能 
来 实现 科技 创新 和 业务 发 展 的 高 效 融 合 、 协 同和 共 赢 。” 
徐 斌 ， 雪 松 控 股 集团 CIO， 前 壳牌 中 国 CIO 
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“为 保证 交付 质量 ,传统 理论 和 做 法 是 开发 、 测 试 、 运 维 各 自 设 定 自己 的 目标 和 准 入 、 准 出 
规则 ， 严 控 变 更 。IT 人 员 很 累 ， 业 务 部 门 却 不 买账 。DevOps 开创 了 开发 、 运 维 一 体 化 的 理念 、 
方法 和 流程 。 面 对 银行 正在 实施 的 数字 化 转型 ， 本 书 的 出 版 可 谓 恰 逢 其 时 。 

一 一 王 菩 ， 中 信和 银行 信息 技术 管理 部 总 经 理 


( 以 上 为 中 文 版 推荐 语 ， 按 姓氏 拼音 排序 ) 





“这 是 一 本 切合 实际 、 实 用 性 强 、 具 有 指导 意义 的 指南 ， 能 帮 你 完成 《凤凰 项 目 》 中 所 有 令 
人 拍手 叫绝 的 事情 。 


一 一 Tom Limoncelli，Stack Exchange 问答 平台 SRE 经 理 ， 曾 任 谷 歌 公 司 SRE/ 系 统管 理 员 
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“对 于 想 理 解 、 解 释 和 实现 DevOps 文化 、 流 程 和 工具 ， 来 达成 高 性 能 运 维 的 任何 人 而 言 ， 
本 书 都 是 不 二 之 选 。” 





一 一 Quentin Fennessy， 埃 森 哲 公司 DevOps 架构 经 理 








“我 一 直 在 找 探讨 如 何在 大 型 组 织 中 实现 DevOps 的 书 ， 不 得 不 说 ， 本 书 “ 一 站 式 ” 地 让 我 
了 解 到 了 许多 : 不 仅 包括 技术 方面 ， 而 且 包 括 业务 方面 。 


一 一 Jumy Mathew，Sogeti 公司 首席 顾问 ， 欧 盟 委 员 会 应 用 架构 师 








“本 书 对 DevOps 新 手 和 老手 来 说 都 是 很 好 的 材料 。 作 为 《凤凰 项 目 》 小 说 的 续 作 ， 它 训 不 
逊色 …… 强 烈 推 荐 。” 











Hamlet Khodaverdian，LMNTRIX 公司 美洲 区 副 总 栽 














“这 本 书 没有 大 肆 宣 扬 DevOps, 而 是 公开 承认 DevOps 是 几 种 实践 的 结合 , 例如 精益 、ITSM.、 
敏捷 、 约 柬 理 论 等 。 本 书 探索 了 如 何 搭配 使 用 它们 。 和 希望 你 读 得 愉快 ， 并 且 加 入 这 场 运动 。 
Daniel Breston，Virtual Clarity 公司 DevOps 顾问 




















( 以 上 为 原版 推荐 语 ) 


译 者 厅 


在 十 几 年 的 工作 经 历 中 , 我 见证 了 国内 企业 数据 中 心 建设 和 发 展 的 过 程 。 大 型 企业 的 数据 中 
心 拥有 几 千 台 服 务 咒 和 网 络 设备 ,， 拥有 全 套 的 监管 控 平 台 。 当 跤 步 于 稼 鸣 的 机 架 丛 林 里 时 ， 当 与 
夜间 奋战 的 变更 团队 一 起 凝视 着 命令 执行 出 错 的 屏幕 时 ， 我 们 可 以 清晰 地 感受 到 IT 运 维 组 织 里 
那 种 特有 的 恐惧 感 和 紧张 感 。 


这 一 切 是 不 是 都 应 该 去 埋怨 墙 另 一 侧 的 开发 团队 呢 ? 在 平日 里 ， 应 用 系统 是 被 圈养 的 宠物 ; 
而 在 发 生 事故 的 那 一 刹那 ， 它 就 变 身 为 一 头 难以 驯服 的 猛兽 。 从 IT 组 织 整体 来 看 ， 当 前 运 维 人 
员 的 痛 是 深刻 而 明显 的 ! 而 开发 人 员 同 样 是 深 受 夜班 出 租车 司机 喜爱 的 人 群 。 相 对 于 运 维 团队 而 
言 ， 他 们 的 精神 世界 和 现实 世界 要 更 加 美好 一 些 。 开 发 团队 实施 了 很 多 年 的 敏捷 软件 开发 ， 有 着 
自己 的 关于 完成 的 定义 。 即 使 你 现在 去 翻阅 一 本 最 新 出 版 的 Scrum 敏捷 开发 指南 , 翻 到 关于 完成 
的 定义 的 章节 时 ， 还 是 可 以 看 到 类 似 这 样 的 定义 :“ 冲 刺 的 目标 是 要 产生 一 个 潜在 可 发 布 的 产品 
增 量 ， 达 到 大 家 一 致 认可 的 完成 程度 。” 我 对 这 样 的 定义 感到 非常 忧虑 : 它 能 意味 着 每 个 冲刺 的 
开发 结果 可 以 正常 地 运行 在 类 生产 环境 中 吗 ? 能 意味 着 可 以 按照 业务 人 员 的 需要 马上 开展 小 范 
围 的 真实 用 户 实验 吗 ? 运 维 人 员 能 和 否 在 系统 濒临 骨 溃 之 前 自行 关闭 这 个 功能 ? 


可 以 肯定 的 是 , 现在 开发 和 运 维 还 不 能 在 统一 的 、 为 客户 交付 价值 的 目标 下 工作 , 他们 像 是 
生活 在 不 同 的 星球 上 。 这 个 问题 并 不 是 我 国 特有 的 。 回 顾 一 下 从 2009 年 开始 的 DevOps 运动 吧 ! 
这 是 一 次 能 让 开发 和 运 维 感到 同样 兴奋 的 技术 实践 变 音 ， 其 中 也 充满 了 人 文 变迁 。 


我 在 不 停 地 思索 ， 应 该 怎样 破解 以 上 困境 。 在 人 研究 DevOps 相关 技术 实践 一 段 时 间 之 后 ， 各 
种 答案 终于 陆续 浮现 。 我 很 幸运 地 接受 了 本 书 的 翻译 工作 。 对 我 来 说 ， 这 是 一 次 深度 的 DevOps 
学 习 人 研究 之 旅 ， 组 织 几 个 好 友 共 同 经 历 这 个 过 程 也 非常 难得 。 现 在 可 以 确定 的 是 ，DevOps 的 理 
论 、 原 则 和 实践 就 一 条 “更 好 的 道路 ”， 就 是 我 们 需要 的 答案 ; 它 能 让 开发 和 运 维 深度 地 融合 为 
同一 支 “ 球 队 ”， 使 他 们 朝 着 “ 进 球 ” 这 一 共同 目标 协同 努力 ， 而 不 再 是 彼此 对 抗 和 怀疑 。 它 将 
测试 和 信息 安全 工作 一 同 融入 了 这 个 统一 的 框架 当中 , 将 保障 质量 和 安全 变 为 每 个 人 日 常 工作 的 
一 部 分 。 本 书 用 DevOps“ 三 步 工作 法 ”的 形式 展示 了 所 有 相关 细 广 。 它 适用 于 1 组织 里 所 有 的 
级 别 和 角色 ， 值 得 任何 拥有 改进 想法 的 人 深入 学 习 。 


本 书 对 开发 和 运 维 具有 同样 重要 的 意义 , 而 且 和 覆盖 了 传统 的 QA 测试 和 信息 安全 工作 ; 它 是 
传统 的 敏捷 开发 、 精 益 管理 和 ITSM 管理 等 实践 各 自发 展 多 年 以 后 的 首次 IT 管理 实践 大 融合 。 



























































































































































译 者 序 vii 








本 书 和 DevOps 本 里 应 该 得 到 更 广泛 的 应 用 和 推广 。 本 书 的 出 版 离 不 开 翻译 团队 和 图 灵 编 辑 团 队 
的 专业 精神 ， 以 及 双方 的 共同 努力 。 在 此 我 统一 向 所 有 合作 者 表示 感谢 。 


此 外 ， 说 以 此 书 献 给 我 的 妻子 丽 娜 和 女儿 备 含 ， 感 谢 她 们 在 这 13 个 月 时 光 里 的 支持 。 特 别 
让 我 欣慰 的 是 ,女儿 不 仅 明 白 什 么 是 图 书 翻译 ， 而 且 在 网 络 英语 课 上 有 很 棒 的 表现 ,也 感谢 她 能 
容忍 我 因此 而 减少 了 与 她 陪伴 和 玩 页 的 时 间 。 






































刘 征 
2018 年 2 月 14 日 (丁丁 年 腊月 二 十 九 ) 


2016 年 9 月 的 一 个 周末 ， 当 时 我 正在 参加 EXIN 举办 的 DevOps Master Trainer 的 培训 ， 刘 征 
向 我 推荐 了 这 本 书 ， 并 邀请 我 共同 完成 中 文 版 的 翻译 工作 。 出 于 对 Gene Kim 的 《凤凰 项 目 》 一 
书 的 喜爱 ， 对 能 够 参与 本 书 的 翻译 工作 ， 我 非常 期 竺 。 


一 周 后 ， 当 我 第 一 次 阅读 本 书 的 预览 章节 时 ， 顿 时 被 其 中 的 内 容 所 吸引 。 本 书 不 仅 将 敏捷 、 
精益 和 持续 交付 等 理念 的 诠释 上 升 到 一 个 新 的 高 度 , 而 且 训 析 了 在 这 个 安全 漏洞 频 发 、 交 付 周 期 
不 断 缩短 、 技 术 大 规模 转型 的 时 代 , 当 技 术 领 导 者 们 面 对 安 全 性 、 可靠 性 和 灵活 性 等 诸多 挑战 时 ， 
为 什么 DevOps 能 够 脱颖而出 一 一 它 帮助 组 织 缩短 价值 交付 流程 ， 打 造 高 可 靠 性 、 高 安全 性 的 产 
品 ， 并 提高 了 企业 竞争 力 和 员工 满意 度 。 


本 书 从 业务 视角 描述 了 DevOps 的 必要 性 ,分 析 了 为 什么 DevOps 是 基于 精益 、 约 束 理论 、 
丰田 生产 系统 、 学 习 型 组 织 、 康 威 定律 等 知识 体系 的 集大成 者 。 同 时 , 它 系 统 性 地 定义 了 DevOps 
“三 步 工作 法 ”: 流动 原则 、 反 馈 原 则 、 持 续 学 习 与 实验 原则 ， 并 阐述 了 DevOps 实施 需 遵 守 的 原 
则 与 最 佳 实践 。 


D 流动 原则 : 它 加 速 了 从 开发 、 运 维 到 交付 给 客户 的 正 向 流程 。 
口 反馈 原则 : 它 使 组 织 构建 安全 、 可 靠 的 工作 体系 ， 并 获得 反馈 。 
口 持续 学 习 与 实验 原则 : 它 打造 出 一 种 高 度 信任 的 文化 ， 并 将 改进 和 创新 融 人 日 常 工作 中 。 


DevOps 对 技术 行业 带 来 的 变化 ， 就 如 同 精益 在 20 世纪 80 年 代 对 制造 业 的 变革 一 样 。 那 些 
拥抱 DevOps 的 组 织 将 构建 出 充满 激情 、 持 续 进步 的 学 习 型 组 织 ， 并 能 通过 创新 的 方式 表现 得 比 
竞争 对 手 更 加 出 色 。 在 本 书 中 ,作者 引入 了 大 量 的 业界 成 功 案例 ,包括 谷歌 .Etsy 塔 吉 特 、.LinkedIm 
等 一 流 的 互联 网 公司 ， 描 述 了 他 们 在 DevOps 转型 过 程 中 面临 的 挑战 以 及 应 对 方式 ， 指 引 读者 站 
在 巨人 的 肩膀 上 思考 。 


DevOps 使 价值 流 里 的 所 有 参与 者 都 受益 匪 浅 。 无 论 你 是 开发 人 员 、 运 维 工程 师 、 质 量 保证 
工程 师 、 信息 安 全 人 员 还 是 产品 经 理 , 它 都 能 够 带 来 开发 伟大 产品 而 产生 的 快感 。 它 能 使 团队 共 
同 成 长 并 持续 获 益 。 相 信 读 过 本 书 之 后 ， 你 一 定 会 产生 强烈 的 共鸣 。 







































































































































































Vili 译 者 序 








感谢 我 的 妻子 晓 丽 和 儿子 锦 申 ， 翻 译本 书 占用 了 我 大 量 业 余 时 间 , 没有 你 们 的 支持 , 我 不 可 
能 完成 这 项 工作 。 感 谢 本 书 的 其 他 几 位 译 者 一 一 刘 征 、 马 博文 、 曾 朝 京 ， 和 你 们 的 合作 让 我 获 益 
良 多 ,也 感谢 图 灵 负 责 本 书 审 校 工作 的 编辑 们 ,你 们 逐 字 逐 名 的 检查 、 校 对 和 修改 提高 了 译文 的 
质量 ， 谢 谢 你 们 ! 


最 后 ， 祝 读者 们 享受 DevOps 的 实践 之 旅 ! 





王 震 


2018 年 2 月 20 日 


2011 ~ 2017 年 ， 我 一 直 在 为 ThoughtWorks 的 一 个 海外 交付 项 目 工 作 。 我 们 和 客户 一 起 ， 从 
持续 集成 、 两 周一 次 部 署 ， 做 到 了 持续 交付 、 随 时 部 署 ， 同 时 应 用 架构 微服 务 化 ， 也 实现 了 上 云 
以 及 容 需 化 部 署 。 


在 这 个 过 程 当 中 , 我 们 切实 地 采用 和 执行 了 业界 的 良好 技术 和 工程 实践 ， 如 微服 务 、 蓝 绿 部 
署 、 不 可 变 部 署 、 基 础 设施 即 代码 等 。 我 也 曾经 阅读 和 翻译 过 DevOps 的 相关 图 书 , 但 总 觉得 还 
是 和 我 们 的 实践 有 点 差距 。 


在 这 段 时 间 中 ， 我 的 角色 也 从 开发 者 变 为 DevOps ( 我 个 人 不 太 喜 欢 这 个 称呼 ， 因 为 我 认为 
DevOps 更 多 的 是 实践 而 不 是 角色 )。 同 时 ， 我 组 织 了 西安 DevOpsMeetup 的 活动 ， 期 望 能 通过 社 
区 分 享 更 多 关于 DevOps 的 知识 。 每 次 活动 时 ， 总 是 有 朋友 问 如 何 实现 DevOps， 我 却 发 现 即便 
亲身 经 历 了 这 个 过 程 ， 也 无 法 给 出 更 高 层面 的 回答 ， 而 且 也 没有 在 别 的 文章 和 书籍 中 找到 答案 。 


很 幸运 ， 因 为 社区 活动 而 结识 的 刘 征 向 我 发 出 了 翻译 本 书 的 邀请 。 在 翻译 的 过 程 当中 , 我 找 
到 了 如 何 系统 性 实现 DevOps 的 答案 。 通 过 “三 步 工作 法 ” 铺 平 流程 ， 选 择 合适 的 切入 点 ， 根 据 
康 威 定律 调整 组 织 、 持 续 交 付 、 自 动 化 、 运 维 改善 等 。 对 于 尚未 实现 DevOps 的 I 组 织 来 说 , 这 
是 一 本 不 可 多 得 的 指南 。 


翻译 本 书 ， 收 获 颇 多 。 本 书 的 作者 Patrick 、Gene 、Jez 和 John 确实 贡献 了 一 本 集 DevOps 大 
成 的 著作 。 希望 读者 在 阅读 后 也 会 有 相同 的 感受 , 能 够 在 团队 中 逐渐 采用 本 书 提供 的 工作 法 或 者 
实践 ， 改 进 交付 速度 、 质 量 、 软 件 可 用 性 以 及 构建 高 可 扩展 的 组 织 结构 。 


翻译 是 一 件 费时 费力 的 工作 。 感谢 我 的 妻子 王 嘉 , 能 包容 我 放弃 陪 她 的 时 间 来 完成 这 一 项 工 
作 。 感 谢 一 起 合作 的 几 位 译 者 一 一 刘 征 、 王 第 、 曾 朝 京 ， 和 你 们 一 起 合作 非常 愉快 。 感 谢 Trent、 
Cos 等 REA 的 朋友 ， 是 你 们 带 我 走 上 了 DevOps 之 路 。 最 后 ， 祝 各 位 读者 在 阅读 完 本 书后 ， 都 能 
找到 实践 DevOps 的 方法 ， 并 且 行 动 起 来 ， 开 局 DevOps 的 探险 之 旅 并 持续 从 中 受益 。 












































































































































马 博文 
2018 年 3 月 4 日 


译 者 序 这 





2012 年 ， 我 第 一 次 在 公司 的 年 度 全 球 会 议 上 接触 到 Dev+Ops 的 概念 。 那 时 候 ，IT 服务 管理 
的 理念 在 国内 IT 运 维 领域 已 经 深入 人 心 ， 保 障 生产 系统 的 可 靠 性 和 安全 性 仅仅 是 运 维 工 作 的 基 
本 内 容 ， 许 多 企业 的 IT 部 门 越 来 越 关注 对 业务 部 门 需求 的 反应 速度 和 给 业务 带 来 的 实际 成 效 ， 
要 求 进一步 提高 IT 服务 的 工作 效率 和 工作 质量 。 显 然 ， 要 提高 IT 服务 的 整体 绩效 ， 不 能 仅仅 局 
限于 运 维 工 作 的 范畴 ， 也 不 是 ITIL 最 佳 实践 就 能 够 解决 的 问题 。 越 来 越 多 的 IT 人 员 都 有 相同 的 
困惑 ， 我 也 在 一 直 思 考 : 还 有 什么 更 好 的 方法 能 提高 IT 绩效 ?! 


Dev+Ops 提出 将 开发 和 运 维 团队 的 工作 紧密 结合 起 来 , 建立 持续 交付 和 持续 反馈 闭环 , 这 个 
思路 让 人 耳 日 一 新 。 但 是 彼 时 DevOps 还 在 实践 中 探索 ， 各 种 阐述 DevOps 的 文章 还 是 比较 片面 
的 ， 其 至 有 一 些 见解 是 相悖 的 。 关 于 如 何 开 展 DevOps， 应 该 做 什么 、 如 何 做 ， 业 内 一 直 缺 乏 形 
成 体系 的 说 明 。 


随 着 DevOps 的 概念 越 来 越 受 到 关注 ， 我 对 开展 DevOps 的 困惑 也 越 来 越 多 。 当 我 看 到 本 书 
英文 版 时 ， 虽 然 只 有 一 个 样 章 , 但 是 它 已 经 能 让 我 确信 ， 关 于 如 何 开 展 DevOps 的 很 多 问题 都 会 
在 其 中 找到 答案 。 于 是 ， 我 欣然 接受 刘 征 的 邀请 ， 参 与 了 本 书 的 翻译 工作 。 


翻译 本 书 的 过 程 就 是 学 习 和 思考 DevOps 实践 方法 的 过 程 。 在 这 个 过 程 中 ， 我 经 常会 经 历 作 
者 在 文中 描述 的 “ 啊 哈 ”时 刻 : 疑惑 解决 了 ,思路 认 然 开朗 。 我 相信 本 书 的 每 一 位 读者 都 会 经 历 
这 样 的 顿悟 时 刻 。 


在 这 本 书 的 翻译 过 程 中 ， 翻 译 团队 也 实践 了 “三 步 工 作法 ”中 的 第 二 3 反馈 原则 。 反馈 
原则 的 核心 思想 是 : 虽然 复杂 的 系统 不 可 避免 地 存在 错误 , 但 是 可 以 通过 采取 安全 措施 确保 在 质 
量 问题 出 现 之 前 ， 快 速 发 现 和 处 理 错误 。4 个 译 者 在 分 别 翻译 了 不 同 的 音节 之 后 ， 都 发 现 了 在 初 
稿 中 有 诸多 对 原文 理解 的 分 歧 和 名 词 翻译 不 统一 的 问题 。 大 家 商议 后 决定 ， 遵 照 “ 三 步 工作 法 ” 
的 反馈 原则 , 全 组 集中 从 第 一 个 章节 开始 交叉 审阅 、 按 序 检查 ; 发 现 问题 及 时 在 小 组 范围 内 讨论 ; 
形成 一 致意 见 后 , 分别 回 到 自己 负责 的 章节 中 修改 。 这 个 过 程 正 是 在 PDCA 中 识别 问题 、 群 策 群 
力 解 决 问题 、 构 建新 知识 并 将 局 部 知识 应 用 到 全 局 的 过 程 。 在 这 个 过 程 中 , 每 一 个 人 也 对 DevOps 
实践 有 了 更 深刻 的 认识 。 


本 书 用 大 量 真实 的 案例 描述 了 DevOps 实践 产生 的 过 程 。 他 们 所 遇 到 的 问题 和 困境 , 很 多 IT 
团队 都 曾经 经 历 、 正 在 经 历 ， 甚 至 在 未 来 不 可 避免 地 即将 经 历 。 和 希望 本 书 能 在 你 感到 困惑 之 时 ， 
对 你 有 所 启发 、 有 所 帮助 。 

经 过 13 个 月 ， 本 书 终于 出 版 在 即 了 。 翻 译 工作 占用 了 我 大 量 的 业余 时 间 ， 感 谢 我 的 父亲 、 
母亲 、 丈 夫 和 儿子 ， 他 们 让 我 在 翻译 文章 的 那些 夜晚 和 周末 ， 只 做 一 个 繁忙 的 影子 。 


感谢 一 起 翻译 此 书 的 伙伴 们 一 一 刘 征 、 王 大 和 马 博文 ， 以 及 图 灵 公司 的 编辑 们 。 
















































































































































































曾 朝 京 
2018 年 3 月 3 日 
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许多 工程 领域 在 过 去 都 经 历 了 长 足 的 发 展 , 它们 不 断 地 “提高 ”对 本 学 科 的 认 知 和 理解 。 虽 
然 土木 、 机 械 、 电 气 、 核 能 等 工程 领域 都 有 对 应 的 大 学 课程 和 专业 机 构 , 但 事实 上 ， 现 代 社会 需 
要 的 是 各 种 形态 的 工程 学 科 相互 交叉 影响 并 从 中 受益 。 


想 一 想 高 性 能 车 辆 的 设计 工作 。 机 械 工程 师 的 工作 是 在 哪个 环节 结束 的 ? 电气 工程 师 的 工作 
是 从 哪个 环节 开始 的 ? 拥有 空气 动力 学 领域 知识 的 人 (对 车 窗 的 形状 、 大 小 和 位 置 有 很 好 的 发 言 
权 ) 在 哪儿 (如 何以 及 何 时 ) 开始 和 人 体 工程 学 专家 协作 ? 在 车 辆 整个 使 用 寿命 期 间 ， 燃 料 混 
合 物 和 汽油 对 发 动机 和 变速 器 材料 有 什么 化 学 影响 ”针对 汽车 设计 , 我 们 还 能 提出 很 多 其 他 方面 
的 问题 , 但 最 终 的 结论 是 一 样 的 : 要 想 在 现代 技术 上 取得 成 功 ， 必 然 需要 多 方向 和 多 专业 领域 的 
协作 。 


任何 一 个 领域 或 学 科 想 要 取得 进步 和 成 熟 , 就 需要 认真 反思 它 的 起 源 , 在 反思 中 寻求 不 同 的 
观点 ， 并 把 这 些 不 同 观点 的 来 龙 去 脉 思 考 清楚 ， 这 对 预见 未 来 发 展 是 非常 有 帮助 的 。 

本 书 代表 了 这 样 一 种 承前启后 的 观点 , 它 应 该 被 视 为 软件 工程 和 运 维 领域 (在 我 看 来 , 它 仍 
在 发 展 和 快速 地 演变 ) 里 一 个 具有 开创 性 的 观点 。 

无 论 你 处 在 哪个 行业 , 无 论 你 的 公司 提供 什么 产品 或 服务 , 这 种 思维 方式 对 于 所 有 业务 和 技 
术 领 导 者 都 是 至 关 重 要 且 必 不 可 少 的 ， 因 为 它 关 乎 着 企业 的 存亡 。 


















































John Allspaw 
Etsy 首席 技术 官 
2016 年 8 月 于 纽约 布鲁克 林 
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呵 哈 ! 





本 书 的 写作 由 来 已 入。 早 在 2011 年 2 月 ， 我 们 几 位 合 著者 就 开始 每 周一 次 的 Skype 通话 ， 
准备 写 一 本 通用 的 DevOps 参考 指南 ， 算 作 《 凤 凰 项 目 : 一 个 开 运 维 的 传奇 故事 》 ”的 姊妹 篇 。 


前 后 历时 5 年 多 ， 耗 费 2000 多 小 时 ， 本 书 终于 呈现 在 你 的 面前 。 过 程 相当 漫长 ， 但 也 是 一 











个 非常 有 益 且 难 得 的 学 习 过 程 ， 最终 涉及 的 范围 比 我 们 早期 预想 的 更 广 。 在 整个 写作 过 程 中 ， 


有 合 著者 都 始终 坚信 DevOps 的 重要 性 。 我 们 在 早期 的 职业 生涯 中 ， 都 曾经 历 过 “ 啊 哈 ”的 
时 刻 ， 相 信 很 多 读者 也 都 会 与 我 们 产生 共鸣 。 


Gene Kim 

从 1999 年 以 来 ,我 有 幸 一 直 在 研究 高 绩效 技术 组 织 ， 最 早 的 一 个 发 现 是 : IT 运 维 、 
信息 安全 和 开发 等 不 同 职能 部 门 之 间 的 良好 合作 是 成 功 的 关键 。 我 依然 清楚 地 记得 第 一 
次 看 到 由 于 这 些 部 门 目 标 相 左 导 致 恶性 循环 的 场景 。 


那 是 在 2006 年 ， 我 跟 某 管理 团队 待 了 整整 一 星期 ， 他 们 当时 正在 为 一 家 大 的 机 票 
预订 公司 提供 外 包 IT 运 维 的 管理 服务 。 他 们 给 我 描述 了 每 年 要 做 的 软件 升级 的 后 果 : 
每 次 发 布 都 会 让 外 包 商 和 客户 的 服务 中 断 ; 由 于 客户 受到 了 影响 , 公司 也 会 根据 服务 等 
级 协议 (SLA ) 受到 处 罚 ; 公司 利润 下 消 ， 不 得 不 解雇 一 些 很 有 才华 和 经 验 的 员工 ; 由 
于 有 大 量 计划 外 的 工作 和 紧急 任务 , 剩 下 的 员工 无 法 处 理 日 益 增长 的 客户 服务 请 求 ; 只 
好 投入 中 层 管理 团队 一 道 完成 合同 要 求 ; 所 有 人 都 认为 3 年 后 肯定 得 重新 招标 。 

这 种 绝望 和 无 助 的 感受 使 我 加 入 了 这 场 道义 上 的 征程 。 开 发 似乎 总 是 被 视 为 战略 性 
的 ， 而 IT 运 维 则 被 视 为 战术 性 的 ， 因 此 常常 被 委托 其 至 整个 外 包 出 去 ， 结 果 是 5 年 后 
的 情形 比 当 初 交 接 时 更 加 糟糕 。 

多 年 来 ， 我 们 许多 人 都 认为 一 定 有 更 好 的 做 法 。 在 2009 年 的 Velocity 会 议 上 ， 我 
看 到 了 这 样 的 演讲 介绍 了 在 架构 、 技 术 实 践 和 文化 方面 并 举 的 革新 (我们 现在 称 之 























GD 关于 《凤凰 项 目 》 详 见 http://www.ituring.com.cn/book/1545。 一 一 编者 注 
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加 言 Xilii 





为 DevOps ) 所 产生 的 惊人 效果 。 当 时 ， 我 非常 兴奋 ， 因 为 它 就 是 我 们 一 直 在 寻找 的 那 
个 更 好 的 方法 。 传 播 DevOps 是 我 合 著 《 凤 凰 项 目 》 的 动机 之 一 。 你 可 以 想象 ， 看 到 更 
广大 的 社 群 对 那 本 书 做 出 的 反应 ， 说 它 是 如 何 帮 助 他 们 实现 自己 的 “ 啊 哈 ”时 刻 的 ， 我 
是 多 么 地 信和 感 欣 慰 ! 


Jez Humble 

我 的 DevOps“ 啊 哈 ” 时 刻 发 生 在 2000 年 ， 当 时 我 就 职 于 一 家 创业 公司 ， 那 是 我 毕 
业 后 的 第 一 份 工作 。 有 一 段 时 间 ， 我 是 公司 仅 有 的 两 名 技术 人 员 之 一 。 我 包揽 了 网 络 、 
编程 、 支 持 、 系 统管 理 等 一 切 工作 。 我 们 通过 FTP 直接 从 工作 站 往生 产 环 境 部 署 软件 。 


我 在 2004 年 加 入 了 ThoughtWorks 咨询 公司 ， 参 与 的 第 一 个 项 目 涉及 大 约 70 人 。 
我 所 在 的 部 署 团队 共 8 名 工程 师 , 团队 的 主要 工作 就 是 将 软件 部 署 到 类 生产 环境 中 。 刚 
开始 的 时 候 ， 工 作 非 常 紧张 。 但 几 个 月 后 , 我们 就 从 需要 花 两 个 星期 的 手动 部 署 ， 进步 
到 了 只 用 一 个 小 时 的 自动 化 部 署 。 在 正常 的 工作 时 间 段 里 ,我 们 也 可 以 使 用 蓝 绿 部 署 模 
式 ， 以 毫秒 为 单位 来 发 布 或 者 回 滚 业务 的 应 用 。 


这 个 项 目 对 《持续 交付 : 发 布 可 靠 软件 的 系统 方法 》9 和 本 书 的 诸多 想法 都 很 有 局 
发 意义 。 对 于 我 和 从 事 该 领域 工作 的 其 他 人 而 言 , 动力 有 两 个 : 我 们 知道 无 论 是 什么 限 
制 ， 总 能 做 得 更 好 ; 我 们 热切 希望 帮助 那些 正在 奋斗 的 人 们 。 


Patrick Debois 
对 我 来 说 ，DevOps 意味 着 一 系列 的 回忆 。2007 年 ， 我 与 几 个 敏捷 团队 一 起 ， 做 一 
个 数据 中 心 迁移 项 目 。 我 很 嫉妒 他 们 的 高 生产 力 能 够 在 很 短 的 时 间 里 做 很 多 的 工作 。 





在 接 下 来 的 一 个 项 目 中 ， 我 便 开 始 在 运 维 工 作 中 试验 看 板 方法 (Kanban )， 并 看 到 
了 团队 的 显著 变化 。 后 来 ， 在 2008 年 的 多 伦 多 敏捷 大 会 上 ， 我 基于 这 个 实践 发 表 了 一 
篇 IEEE 论文 ， 不 过 当时 它 并 没有 在 敏捷 社区 里 引起 广泛 的 共鸣 。 我 们 创建 了 敏捷 系统 
管理 组 (Google Group )， 但 忽视 了 人 这 一 因素 。 


在 2009 年 的 Velocity 会 议 上 ， 我 听 了 John Allspaw 和 Paul Hammond 所 分 享 的 “每 
日 10 次 部 署 ”的 演讲 以 后 ， 确 信 其 他 人 与 我 英雄 所 见 略 同 。 因 此 我 决定 组 织 第 一 次 
DevOpsDays 活动 ， 误 打 误 撞 地 创造 了 “DevOps” 这 个 词 。 


DevOpsDays 活动 体现 了 独特 的 魅力 和 感染 力 。 当 人 们 开始 因 DevOps 改善 了 他 们 的 
工作 而 感谢 我 时 , 我 才 真 正 意识 到 它 的 影响 力 。 从 那 以 后 ,我 就 开始 持续 地 推广 DevOps。 


John Willis 
2008 年 ， 我 第 一 次 见 到 Luke Kanies ( Puppet Labs 的 创始 人 ) 本 人 ， 那 时 我 刚刚 出 














关于 《持续 交付 》， 详 见 http://www.ituring.com.cn/book/758。 一 一 编者 注 
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售 了 专注 于 大 型 系统 的 配置 管理 和 监控 (Tivoli ) 实践 的 咨询 业务 。Luke 在 O'Reilly 开 
源 大 会 的 配置 管理 分 会 场 里 介绍 了 Puppet 软件 。 


演讲 刚 开 始 时 ， 我 在 会 场 最 后 一 排 走 来 走 去 消磨 时 间 ， 心 想 :“ 关 于 配置 管理 ， 这 
个 20 岁 的 年 轻 人 能 讲 些 什么 呢 ? ”人 毕竟， 我 在 整个 职业 生涯 中 ， 基 本 都 在 帮助 世界 上 
最 大 的 那些 企业 构建 配置 管理 和 其 他 运 维 管理 方案 。 然 而 ,他 大 约 讲 了 5 分钟 后 , 我 就 
坐 到 了 第 一 排 ， 同 时 意识 到 在 过 去 20 年 里 ， 我 真是 一 无 是 处 。Luke 所 描述 的 就 是 现在 
我 们 所 说 的 第 二 代 配 置 管理 。 


在 他 演讲 完 之 后 ， 我 找 机 会 和 他 坐 下 来 一 起 喝 了 杯 咖 啡 。 我 完全 被 “基础 设施 即 代 
码 ”( infrastructure as code ) 的 理念 所 折服 了 。Luke 一 边 喝 着 咖啡 ， 一 边 更 详细 地 向 我 
益 述 了 他 的 想法 。 他 告诉 我 ， 他 相信 运 维 人 员 的 工作 模式 可 能 会 变 得 像 开 发 人 员 一 样 ， 
他 们 必须 在 源 代码 控制 系统 里 维护 系统 的 配置 ， 并 在 工作 中 使 用 持续 集成 /持续 交付 
( CL/CD ) 的 模式 。 作 为 一 名 开 运 维 的 老兵 ， 我 当时 的 回应 大 概 是 “ 运 维 人 员 不 会 喜欢 
你 这 个 想法 的 ”。( 显然 是 我 错 了 。) ” 


大 约 又 过 了 一 年 ,在 2009 年 O'Reilly 的 Velocity 会议 上 ,我 听 了 Andrew Clay Shafer 
关于 敏捷 基础 设施 的 演讲 。 在 演讲 中 ，Andrew 展示 了 一 幅 形 象 的 插图 ， 图 中 的 开发 部 
门 和 运 维 部 门 之 间 存 在 一 堵 高 墙 ， 以 此 隐喻 工作 被 两 个 部 门 踢 来 踢 去 。 他 将 此 称 为 “ 混 
乱 之 墙 ”( the wall of confusion )。 这 个 想法 其 实 和 一 年 前 Luke 的 想法 如 出 一 略 ， 这 让 我 
眼前 一 亮 。 那 年 年 底 ， 我 作为 唯一 受 邀 的 美国 人 ， 参 加 了 比利时 根 特 市 的 首次 
DevOpsDays 活动 。 在 活动 结束 时 ， 这 个 所 谓 DevOps 的 东西 已 然 融入 了 我 的 血液 。 


显然 ， 本 书 的 合 著者 都 有 类 似 的 顿悟 ， 尽 管 他 们 来 自 完全 不 同 的 方向 。 有 充分 的 证 据 表明 ， 
上 述 这 些 问 题 几 乎 在 所 有 地 方 都 发 生 过 ， 而 那些 DevOps 相关 的 解决 方案 也 几乎 是 普遍 适用 的 。 


写本 书 的 目的 是 描述 如 何 复制 我 们 参与 过 的 或 观察 到 的 DevOps 转型 的 成 功 经 验 ， 驶 斥 那 
些 说 DevOps 在 茶 些 场景 里 行 不 通 的 廖 论 .以 下 是 我 们 听 说 过 的 关于 DevOps 的 一 些 最 常见 的 误区 


误区 1: DevOps 只 适用 于 创业 公司 。 虽然 谷歌 、 亚 马 逊 、Netflix 和 Etsy 等 互联 网 “ 独 角 兽 ” 
公司 是 DevOps 的 先行 者 ,但 这 些 公司 在 过 去 都 面临 过 巨大 的 风险 ,而且 他 们 所 遇 到 的 问题 和 传 
统 企业 相 比 并 无 二 致 : 软件 的 高 风险 代码 容易 导致 灾难 性 故障 , 无 法 快速 发 布 新 功能 来 击败 竞争 
对 手 ， 存 在 安全 合 规 性 问题 ， 服 务 无 法 扩容 ， 开 发 和 运 维 彼此 高 度 不 信任 等 。 

然而 ,这些 公司 都 能 够 适时 地 改变 它们 的 架构 、 技 术 实 践 和 文化 ,如 今 他 们 都 创造 出 了 惊人 
的 DevOps 成 果 。 正 如 信息 安全 高 管 Branden Williams 博士 所 说 :“ 不 要 管 DevOps 是 适合 独 角 兽 
还 是 马 ， 只 要 跑 得 快 就 能 抵达 目的 地 。” 
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关于 Led Zeppelin 抄袭 的 八卦 。 一 一 译 者 注 
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误区 2: DevOps 将 取代 敏捷 。DevOps 的 原则 和 实践 与 敏捷 方法 一 致 ， 许 多 人 认为 DevOps 
是 自 2001 年 开始 的 敏捷 之 旅 的 合理 延续 。 人 敏捷 通常 是 DevOps 效率 的 保障 ， 因 为 它 专 注 于 让 小 
团队 向 客户 持续 交付 高 品质 的 代码 。 


如 果 我 们 每 次 迭代 的 目标 不 限于 “潜在 可 交付 的 代码 ”"， 而 是 扩展 到 让 代码 始终 处 于 可 发 布 
状态 ， 让 开发 人 员 每 天 都 把 代码 提交 到 主干 ， 并 在 类 生产 环境 中 做 功能 演示 ， 那 么 许多 DevOps 
相关 的 实践 就 会 浮现 。 


误区 3: DevOps 与 ITIL 不 兼容 。 许 多 人 认为 ，DevOps 与 1989 年 发 布 的 ITIL (Information 
Technology Infrastructure Library，IT 基础 架构 库 ) 或 ITSM (IT Service Management，IT 服务 管 
理 ) 是 背道而驰 的 。ITIL 广泛 影响 了 好 几 代 运 维 实践 者 ,包括 本 书 的 一 位 合 著者 , 并且 它 依然 在 
演进 ， 是 一 个 不 断 发 展 的 实践 体系 ， 旨 在 稳定 地 支撑 世界 级 的 IT 运 维 ， 而 且 横 跨 服 务 战略 、 设 
计 和 支持 等 流程 和 实践 。 


DevOps 实践 可 以 与 ITIL 流程 兼容 。 然 而 ， 为 了 文 持 DevOps 所 追求 的 更 短 的 发 布 周 期 和 更 
频繁 的 部 署 ,ITIL 流程 的 许多 方面 需要 完全 自动 化 ,以 解决 配置 和 发 布 管理 流程 相关 的 许多 问题 ， 
例如 保持 配置 管理 数据 库 和 最 终 软 件 库 是 最 新 的 。 由 于 DevOps 需要 在 服务 事件 发 生 时 进行 快速 
的 定位 和 恢复 ， 因 此 这 些 其 实 还 是 和 ITIL 的 服务 设计 、 事 件 和 问题 管理 方面 的 原则 相 一 致 。 


误区 4: DevOps 与 信息 安全 及 合 规 活动 不 兼容 。 传 统 控制 手段 〈 例 如 职责 分 离 、 变 更 审批 
流程 、 项 目 结束 时 的 手动 安全 审查 ) 的 缺 位 ， 可 能 会 令 信息 安全 和 合 规 审计 人 员 感 到 失望 。 


然而 ， 这 并 不 意味 着 采用 DevOps 的 公司 里 没有 有 效 的 控制 ， 只 是 它 并 不 一 定 体 现在 项 目 结 
束 时 的 安全 和 合 规 性 活动 中 , 而 是 集成 到 了 软件 开发 生命 周期 的 每 一 项 日 常 工作 中 , 因此 会 得 到 
更 好 的 质量 、 安 全 性 和 合 规 性 。 


误区 5: DevOps 意味 着 消除 IT 运 维 ， 即 “NoOps”。 许 多 人 错误 地 将 DevOps 解释 为 完全 
消除 开 运 维 的 职能 ， 然 而 ， 这 种 情况 是 很 少见 的 。 虽 然 代 运 维 工作 的 性 质 可 能 会 发 生 改 变 , 但 
它 仍然 像 以 前 一 样 重要 。 IT 运 维 团队 要 在 软件 生命 周期 的 早期 就 与 开发 团队 开展 合作 。 在 代码 部 
署 到 生产 环境 中 后 ， 开 发 团队 也 要 继续 与 运 维 团队 合作 。 


IT 运 维 不 只 是 工 单 驱动 的 手动 操作 ， 而 是 能 够 通过 自助 服务 平台 和 API 来 提升 开发 人 员 的 
生产 效率 ,让 他 们 能 自助 地 创建 开发 环境 、 测 试 和 部 署 代 码 、 监 控 和 显示 业务 运行 的 状态 等 。 通 
过 这 种 方式 ，IT 运 维 人 员 变 得 更 像 是 开发 人 员 (或 者 QA 和 信息 安全 人 员 )， 融 入 到 了 产品 开发 
过 程 中 ， 而 该 产品 则 是 开发 人 员 在 生产 中 用 来 安全 快速 地 测试 、 部 署 和 运行 IT 服务 的 平台 。 


误区 6: DevOps 只 是 “基础 设施 即 代码 ”或 自动 化 。 尽 管 本 书 所 展示 的 许多 DevOps 模式 
都 需要 自动 化 , 但 是 DevOps 还 需要 文化 规范 和 架构 ,以便 在 IT 价 值 流 中 实现 共同 的 目标 。 而 这 
远 远 超越 了 自动 化 的 范畴 。DevOps 最 早 的 拥护 者 之 一 Christopher Little 也 是 一 名 技术 主管 , 他 写 
道 :“DevOps 不 仅 是 自动 化 ， 就 像 天 文学 不 只 是 望远镜 一 样 。 








































































































































































































误区 7:DevOps 仅 适 用 于 开源 软件 .尽管 许多 DevOps 成 功 案例 发 生 在 使 用 LAMP 栈 ( Linux、 
Apache 、MySQL 、PHP ) 等 构建 软件 的 公司 ,但 实现 DevOps 与 所 使 用 的 技术 无 关 。 在 使 用 
Microsoft .NET 、COBOL 和 大 型 机 汇编 语言 以 及 SAP 甚至 艇 人 式 系统 ( 如 惠普 LaserJet 打印 机 固 
件 程 序 ) 等 编写 应 用 程序 的 公司 ，DevOps 也 能 取得 成 功 。 



































传播 “ 啊 哈 ”时 刻 


本 书 的 每 一 位 作者 都 被 DevOps 社区 里 发 生 的 惊人 创新 及 成 果 深 深 地 打动 和 启发 : 他 们 正在 
创建 安全 的 工作 系统 ,让 小 型 团队 能 够 快速 独立 地 开发 和 验证 能 够 为 客户 安全 地 部 署 的 代码 。 我 
们 相信 ，DevOps 是 创建 动态 、 学 习 型 且 强 化 高 度 信任 的 文化 规范 的 公司 的 一 种 表现 形式 ， 这 些 
公司 一 定 会 持续 地 在 市 场 上 创新 并 在 苋 争 中 脱 颗 而 出 。 


我 们 真诚 地 希望 本 书 能 以 多 种 方式 为 许多 人 提供 价值 ， 它 可 以 是 一 个 DevOps 转型 计划 和 实 
践 指 南 ， 也 可 以 是 一 组 可 供 研究 和 学 习 的 参考 案例 ， 可 以 是 一 部 DevOps 编 年 史 ， 也 可 以 是 一 种 
联结 产品 经 理 、 架 构 师 、 开 发 人 员 、QA 、IT 运 维 和 信息 安全 团队 以 实现 共同 目标 的 方法 ， 可 以 
是 一 条 为 DevOps 活动 获取 高 层 领导 支持 的 途径 ， 也 可 以 是 一 种 改变 技术 组 织 管理 方式 的 道德 使 
命 ， 以 帮助 企业 提高 效率 ， 创 造 更 快乐 和 更 人 性 化 的 工作 环境 ， 并 帮助 每 个 人 成 为 终身 学 习 者 。 
这 不 但 能 帮助 每 个 人 实现 他 们 个 人 的 最 高 目标 ， 而 且 还 能 帮助 他 们 的 公司 取得 更 大 的 成 功 。 








































































































导言 ， 展 望 DevOps 新 世界 


想象 有 这 样 的 一 个 世界 : 产品 经 理 、 开 发 人 员 、QA 人 员 、IT 运 维 人 员 和 信息 安全 人 员 互 相 
帮助 ， 齐心 协力 ， 整 个 公司 的 业绩 蒸蒸日上 。 他 们 朝 着 一 个 共同 的 目标 努力 奋斗 ， 建立 出 从 产品 
计划 直至 功能 上 线 的 端 到 端的 快速 服务 交付 流水 线 (例如 每 天 执行 几 十 次 、 数 百 次 甚至 上 千 次 代 
码 部 署 )， 在 系统 稳定 性 、 可 靠 性 、 可 用 性 和 安全 性 方面 均 达 到 了 世界 一 流 的 水 平 。 


在 那里 , 跨 职能 团队 严 间 地 验证 他 们 的 假设 : 哪些 功能 最 能 取悦 用 户 并 能 促进 企业 目标 的 实 
现 。 他 们 不 仅 关 心 用 户 特性 的 实现 ,而 且 还 积极 地 保障 交付 能 够 顺畅 、 频 繁 地 通过 整个 交付 价值 
链 ， 同 时 ,IT 运 维 部 门 、 其 他 内 部 或 者 外 部 客户 的 系统 都 不 会 出 现任 何 混乱 及 中 断 。 


在 那里 ， QA 人员、IT 运 维 人 员 和 信息 安全 人 员 也 会 共同 投身 于 团队 文化 建设 ,致力 于 创造 
能 使 开发 人 员 效 率 更 高 、 产 能 更 大 的 工作 环境 。 通 过 将 QA、IT 运 维和 信息 安全 等 方面 的 专业 人 
员 共 同 融 人 交付 团队 , 来 构建 自动 化 的 自助 工具 和 平台 , 所 有 团队 在 日 常 工作 中 就 能 够 随时 利用 
他 人 的 专业 技能 ， 而 不 用 再 依赖 或 等 待 其 他 团队 。 


在 那里 ,小 团队 能 够 快速 独立 地 开发 、 测 试 和 部 署 代码 ， 并 且 可 以 快速 、 安 全 、 可 靠 地 向 客 
户 交 付 价值 。 同时 , 公司 能 够 有 效 地 提高 开发 人 员 的 生产 力 , 建立 学 习 型 公司 , 提高 员工 满意 度 ， 
并 在 市 场 竞 争 中 取胜 。 


这 就 是 DevOps 产生 的 效果 。 但是, 对 于 我 们 大 多 数 人 来 说 , 这 并 不 是 我 们 所 处 的 现实 世界 。 
在 现实 中 ， 系 统 经 常 被 破坏 ,服务 和 产品 总 是 不 尽 如 人 意 , 团队 的 潜力 无 法 得 到 正常 发 挥 ; 在 现 
实 中 ， 开 发 和 IT 运 维 是 对 立 的， 测试 和 信息 安全 活动 总 是 在 项 目 晚期 才 进 行 ， 这 导致 即使 发 现 
了 问题 也 来 不 及 修复 ; 在 现实 中 , 产品 和 服务 交付 中 的 关键 活动 往往 全 都 需要 手动 操作 和 互相 交 
接 , 我 们 总 是 要 等 待 其 他 人 的 工作 完成 才能 进行 自己 的 工作 ; 在 现实 中 , 特性 交付 的 周期 一 次 次 
被 拖延 ,， 质量 也 频频 出 现 问题 ,特别 是 与 生产 环境 部 署 相关 的 部 分 ， 进而 对 客户 和 业务 造成 了 负 
影响 。 

结果 ， 不 仅 是 我 们 的 工作 无 法 按 预 期 完成 ， 整 个 公司 也 对 IT 部 门 的 业绩 不 满意 ， 甚 至 导致 
预算 被 削减 ，IT 员工 没有 成 就 感 ， 感 觉 无 力 改变 流程 及 其 结果 "。 怎 么 办 ? 我 们 需要 改变 工作 方 
式 ， 没 错 ，DevOps 能 够 给 我 们 指引 方向 。 



















































































































































































@ 这 只 是 在 典型 的 开 公 司 中 发 现 的 众多 小 问题 之 一 。 





Xviii 导言 : 展望 DevOps 新 世界 





为 了 更 好 地 理解 DevOps 革命 的 潜力 ,首先 让 我 们 来 回顾 一 下 20 世纪 80 年 代 的 制造 业 革 命 。 
通过 采用 精益 原则 和 实践 , 很 多 制造 三 不 但 大 幅 提 高 了 生产 效率 , 缩短 了 交 货 周期 ,而且 还 提高 
了 产品 质量 及 客户 满意 度 ， 并 在 市 场 竞 争 中 立 于 不 败 之 地 。 


在 制造 业 革 命 前 , 制造 广 的 平均 交 货 周 期 为 6 周 , 能 按时 交 货 的 订单 不 到 总 量 的 70%。 随 着 
精益 实践 的 广泛 实施 ， 到 2005 年 ， 产 品 的 平均 交 货 周期 缩短 到 3 周 以 下 ， 按 时 交 货 的 订单 超过 
总 量 的 95%。 而 那些 没有 实施 精益 实践 的 厂商 ， 不 但 渐渐 失去 了 市 场 ， 有 的 甚至 破产 了 。 


男 一 方面 , 技术 产品 和 服务 的 交付 标准 也 在 不 断 提 高 一 一 儿 十 年 前 优秀 的 交付 标准 如 今 已 然 
过 时 。 过 去 的 40 年 中 , 开发 和 部 署 战略 型 业务 功能 所 需 的 成 本 和 时 间 每 十 年 就 下 降 几 个 数量 级 。 
在 20 世纪 七 八 十 年 代 ， 新 功能 大 都 需要 1 ~ $ 年 的 开发 和 部 署 周期 ， 动 加 花费 数 千 万 美元 。 


到 21 世纪 初 ， 由 于 技术 的 快速 发 展 以 及 敏捷 原则 和 实践 的 应 用 ， 新 功能 开发 所 需 的 时 间 已 
经 从 几 年 缩短 至 几 个 月 , 但 是 部 署 到 生产 环境 仍然 需要 几 周 甚至 数 月 , 而 且 部 署 过 程 中 还 总 是 伴 
随 着 大 量 不 可 预知 的 状况 。 


到 2010 年 ， 随 着 DevOps 的 出 现 ， 以 及 硬件 、 软 件 和 公有 云 的 不 断 商 品 化 ， 任 何 特性 ( 其 
至 整个 公司 的 创建 ) 都 可 以 在 几 个 星期 内 完成 , 并 在 几 小 时 或 几 分 钟 内 部 署 到 生产 环境 中 一 一 对 
于 这 些 公 司 而 言 ， 部 署 最 终 进化 成 了 日 常 的 、 低 风险 的 工作 ( 见 表 0-1 )。 通 过 运用 DevOps， 这 
些 公 司 能 够 通过 测试 商业 理念 发 现 对 客户 和 整个 公司 而 言 最 有 价值 的 想法 , 然后 实施 开发 , 并 快 
速 昌 安全 地 将 其 部 署 到 生产 环境 中 。 


表 0-1 更 快 、 更 廉价 、 更 低 风险 的 软件 交付 趋势 正 加 速 发 展 
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1970 ~ 1989 年 1990 ~ 1999 年 2000 年 至 今 
时 代 主机 客户 端 /服务 器 商品 化 和 云 计算 
标志 性 技术 COBOL、 运 行 在 MVS 上 的 ”C++、Oracle、Solaris 等 Java、MySQL 、Red Hat、Ruby on Rails、 
DB2 等 PHP 等 
交付 周期 1~5 年 3~12 个 月 2 ~ 12 个 星期 
成 本 100 万 ~ 1 亿美 元 10 万 ~ 1000 万 美元 1 万 ~ 100 万 美元 
风险 级 别 整个 公司 产品 线 或 者 部 门 产品 特性 
失败 成 本 破产 、 出 售 公司 、 大 量 裁员 ”业务 亏损 、CIO 革职 可 忽略 不 计 














(来 源 : 2013 年 11 月 ，Adrian Cockcroft 在 加 州 旧金山 FlowCon 上 发 表 的 演讲 “Velocity and Volume (or Speed Wins)”) 


现在 ， 大 部 分 采用 了 DevOps 原则 和 实践 的 公司 ， 每 天 都 能 完成 儿 百 其 至 上 千 次 代码 部 署 的 
变更 。 在 这 个 竞争 优势 需要 被 快速 验证 和 持续 实验 的 时 代 ， 那 些 还 不 能 应 用 DevOps 实践 的 公司 
注定 会 在 市 场 上 败 给 敏捷 的 竞争 对 手 , 并 可 能 会 倒闭 , 和 当年 那些 没有 采取 精益 原则 和 实践 的 制 
造 厂 的 下 场 类 似 。 


今天 , 不 管 我 们 身 处 什么 行业 , 想 要 获取 客户 并 向 客户 交付 价值 的 方式 都 要 依赖 于 技术 价值 
流 。 正 如 通用 电气 公司 首席 执行 官 伊 梅 尔 特 所 说 :“ 没 有 将 软件 作为 核心 业务 的 每 一 个 行业 或 公 






































导言 : 展望 DevOps 新 世界 Xix 





司 都 会 受到 影响 。” 微 软 技术 院士 Jeffrey Snover 也 曾 说 过 :“ 在 过 去 的 经 济 时 代 ， 企 业 通 过 移动 
原子 创造 价值 。 而 现在 ， 他 们 必须 通过 数字 创造 价值 。” 


这 个 问题 的 严重 性 毋庸 置疑 一 一 当今 的 技术 影响 着 所 有 的 企业 , 不 论 其 行业 、 规 模 和 盘 利 性 
质 如 何 。 与 以 往 相 比 , 技术 工作 的 管理 和 有 效 执行 ， 预示 着 企业 能 否 在 市 场 上 取得 优势 ， 甚 至 能 
否 生存 下 去 。 因 此 ,尝试 和 采取 一 些 新 的 原则 和 方法 势 在 必 行 , 虽然 有 些 方 法 可 能 和 过 去 儿 十 年 
里 曾 指 导 我 们 成 功 的 做 法 截然 不 同 ( 见 附录 1 )。 

我 们 现在 已 经 明确 了 DevOps 解决 问题 的 重要 性 和 紧迫 性 。 接 下 来 要 花 一 些 时 间 来 详细 探索 
问题 的 本 质 : 这 些 问 题 为 什么 会 发 生 ? 若 不 采取 措施 干预 的 话 ， 随 着 时 间 的 推移 ， 这些 问题 为 什 
么 会 更 加 严重 ? 























问题 : 在 你 的 公司 中 有 些 事情 必须 改进 否则 你 不 会 来 翻 这 本 书 ) 


大 多 数 公司 都 不 能 在 几 分 钟 或 几 小 时 内 完成 变更 需要 的 所 有 部 署 , 往往 需要 几 周 甚至 几 个 月 
的 时 间 。 他 们 更 不 可 能 每 天 在 生产 环境 中 做 到 成 百 上 千 次 的 部 署 ， 而 是 在 以 月 甚至 以 季度 为 单位 
进行 部 署 。 对 他 们 而 言 ， 生产 环境 的 部 署 并 不 是 日 党 工 作 , 因此 服务 中 断 和 各 种 事故 总 是 与 部 署 
如 影 随 形 ,“ 填 坑 侠 ” 们 总 是 前 赴 后 继 。 


目前 ,快速 地 切 和 市场、 提供 优 质 的 服务 以 及 持续 的 创新 就 是 一 种 竞争 实力 ， 而 上 述 公司 显 
然 会 在 这 样 的 竞争 中 处 于 劣势 。 这 很 大 程度 上 要 归咎 于 技术 团队 无 法 解决 根本 的 、 长 期 的 冲突 。 

















































































































根本 的 、 长 期 的 冲突 

在 几乎 所 有 的 开 公 司 中 , 开发 部 门 和 开 运 维 部 门 之 间 都 存在 一 种 固有 冲突 ， 这 会 让 公司 业 
绩 下 滑 ， 进 而 导致 新 产品 和 新 功能 的 上 市 时 间 拉 长 、 质 量 下 降 、 服 务 中 断 时 间 增 加 ， 甚 至 导致 技 
术 债 务 量 与 日 俱 增 。 

“技术 债务 ”这 个 术语 是 Ward Cunningham 首次 提出 的 。 类 似 于 金融 债务 ， 技 术 债务 是 指 我 
们 当前 所 做 出 的 决定 会 导致 一 些 问 题 ， 而 这 些 问题 随 着 时 间 的 推移 会 越 来 越 难 解决 , 未 来 可 采取 
的 措施 也 越 来 越 少 。 即 使 我 们 审慎 地 承担 技术 债务 ， 也 依然 会 产生 利息 。 

开发 部 门 和 IT 运 维 部 门 的 目标 是 对 立 的 ， 这 通常 是 产生 技术 债务 的 一 个 因素 。IT 公司 需要 
负责 的 事情 很 多 ， 其 中 包括 下 面 两 个 必须 实现 的 目标 : 
口 对 变化 莫 测 的 市 场 做 出 反应 ; 
D 为 客户 提供 稳定 、 可 靠 和 安全 的 服务 。 
开发 部 门 通常 负责 对 市 场 变化 做 出 响应 , 以 最 快 的 速度 将 新 功能 或 者 变更 上 线 。 而 全 运 维 部 
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门 则 要 以 为 客户 提供 稳定 、 可 靠 和 安全 的 开 服务 为 已 任 , 让 任何 人 都 很 难 甚至 无 法 引入 可 能 会 危 
害 生 产 环境 的 变更 。 这 种 配置 方式 让 开发 部 门 和 IT 运 维 部 门 的 目标 和 动因 之 间 存 在 巨大 的 冲突 。 


制造 业 管理 运动 的 发 起 者 之 一 Eliyahu M. Goldratt 博 士 称 这 种 配置 为 “根本 的 .长 期 的 冲突 ”一 一 
公司 对 不 同 部 门 的 考核 和 激励 不 同 ， 阻 碍 了 公司 全 局 目标 的 实现 。" 


这 种 冲突 造成 了 一 种 恶性 循环 ， 阻 碍 了 业务 目标 的 实现 ， 不 但 波及 IT 公司 的 内 部 ， 而 且 还 
会 影响 外 部 。 这些 长 期 冲突 常常 导致 搁 术 工作 者 交付 出 质量 低劣 的 软件 和 服务 , 打造 出 糟糕 的 客 
户 体验 ， 每 天 都 要 采用 临时 解决 方案 、 应 对 紧急 情况 。 以 上 情景 在 产品 管理 、 产 品 开发 、QA、 
I 末 运 维和 信息 安全 管理 中 不 断 上 演 ( 见 附录 2 )。 
























































恶性 循环 三 部 曲 
大 多 数 的 IT 从 业者 可 能 都 对 恶性 循环 三 部 曲 很 熟悉 。 


第 一 部 曲 开 始 于 IT 运 维 ,我 们 的 目标 是 让 应 用 程序 和 基础 设施 持续 运行 ， 以 便 公司 向 客户 
交付 价值 。 我 们 日 常 工作 中 的 很 多 问题 源 于 应 用 程序 和 基础 设施 过 于 复杂 、 蜡 常 脆弱 、 文 档 不 完 
备 。 这 就 是 我 们 背负 的 技术 债务 ， 这 就 是 我 们 每 天 所 处 的 工作 环境 。 我 们 总 是 承诺 ， 一 有 时 间 ， 
我 们 一 定 会 处 理 这 个 烂摊子 ， 但 是 这 个 时 刻 永远 都 不 会 到 来 。 


更 令 人 担忧 的 是 , 我 们 最 脆弱 的 组 件 正 支 撑 着 最 重要 的 业务 系统 或 者 最 关键 的 项 目 。 换 名 话 
说 , 那个 最 容易 发 生 故 障 的 系统 就 是 我 们 最 重要 的 系统 ,也 是 所 有 紧急 变更 的 中 心 。 当 这 些 变更 
失败 的 时 候 , 那些 最 重要 的 公司 承诺 ， 例 如 客户 服务 可 用 性 、 营 收 目 标 、 客 户 数据 的 安全 性 和 财 
务 报告 的 精确 性 等 ， 就 会 直接 受到 危害 。 


第 二 部 曲 始 于 有 人 必须 去 弥补 最 近 未 兑现 的 承诺 一 一 这 可 能 是 某 个 产品 经 理 承 诺 了 一 个 更 
大 规模 、 更 大 胆 的 吸引 客户 的 功能 ,或 者 是 业务 主管 设置 了 一 个 更 高 的 收益 目标 。 然 而 ， 他 们 无 
视 技 术 能 实现 什么 不 能 实现 什么 ,以 及 到 底 为 何 没 能 兑现 之 前 的 承诺 , 而 是 让 技术 组 织 按照 新 的 
承诺 交付 成 果 。 


结果 , 开发 团队 被 指派 去 做 男 一 个 紧急 项 目 , 这 个 项 目 必 然 需 要 解决 新 的 技术 难题 , 需要 利 
用 各 种 捷径 以 赶 上 承诺 的 发 布 日 期 , 而 这 又 导致 了 技术 债务 的 增加 一 一 此 时 我 们 又 承诺 一 有 时 间 
就 处 理 这 次 产生 的 所 有 问题 。 

在 这 样 的 背景 下 ,我 们 进入 了 第 三 部 曲 ， 也 就 是 最 后 一 部 曲 。 在 这 里 ,所 有 事情 都 变 得 更 加 
困难 一 一 所 有 人 都 越 来 越 忙 ， 工 作 所 消耗 的 时 间 越 来 越 多 , 沟通 变 得 更 加 缓慢 ， 工 作 积压 得 越 来 
越 多 。 我 们 的 工作 耦合 得 更 加 紧密 ， 即 使 是 很 小 的 行动 也 会 导致 较 大 的 事故 ,我 们 更 加 害怕 和 拒 

































































































































































@ 制造 业 存 在 类 似 的 “根本 的 、 长 期 的 冲突 ?: 他 们 既 需 要 确保 按时 发 货 给 客户 ， 又 要 控制 成 本 。 解 决 这 种 冲突 的 
方法 参见 附录 2。 
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绝 做 出 变更 。 工 作 需 要 更 多 的 沟通 、 协 调和 审批 ; 团队 必须 等 待 更 长 的 时 间 ， 等 待 相关 的 工作 完 
成 ; 我 们 的 工作 质量 持续 恶化 。 车 轮 开始 嘎嘎 作 响 地 缓慢 移动 ， 要 想 使 之 继续 转动 ， 就 需要 付出 
更 多 的 努力 ( 见 附录 3 )。 


尽管 当 我 们 身 处 其 中 时 很 难 察觉 到 , 但 是 当 你 退 后 一 步 , 就 会 发 现 这 个 恶性 循环 是 显而易见 
的 。 你 会 注意 到 产品 代码 部 署 消耗 的 时 间 更 长 了 ， 从 几 分 钟 到 几 个 小 时 ， 再 到 几 天 或 者 几 周 。 更 
粮 的 是 , 部署 的 效果 越 来 越 差 .这 导致 客户 服务 中 断 的 次 数 越 来 越 多 , 需要 运 维 部 门 来 救急 ， 而 
他 们 也 因此 无 法 偿还 技术 债务 。 


结果 ,我们 的 产品 交付 周期 越 来 越 长 ， 做 的 项 目 越 来 越 少 , 项 目 目 标 也 越 来 越 小 。 而 且 ， 对 
所 有 人 工作 (尤其 是 对 来 自 客户 的 反馈 信号 ) 的 反馈 越 来 越 慢 ， 且 越 来 越 弱 。 不 管 我 们 做 出 怎样 
的 尝试 ， 事情 似 乎 总 是 变 得 越 来 越 糟 糕 一 一 面 对 日 新 月 异 的 市 场 竞 争 ， 我 们 不 再 能 够 快速 响应 ， 
也 无 法 为 客户 提供 稳定 、 可 靠 的 服务 。 我 们 最 终 因 此 失去 了 市 场 。 

我 们 反复 地 看 到 ， 一 个 IT 做 得 失败 的 公司 ， 整 个 公司 也 都 是 失败 的 。 正 如 Steven J. Spear 
在 The High-Velocity Edge 一 书 中 指出 的 ， 无 论 破坏 “ 像 消耗 性 疾病 一 样 慢 慢 地 发 展 ” 还 是 迅速 得 
“ 像 大 火 焚 毁 般 …… 其 毁灭 性 都 是 一 样 彻 底 ”。 

































































































































































为 什么 恶性 循环 无 处 不 在 


十 多 年 以 来 ,本 书 作者 发 现 这 种 破坏 性 的 恶性 循环 发 生 在 各 种 类 型 、 各 种 规模 的 公司 里 。 这 
让 我 们 更 好 地 理解 了 发 生 这 种 恶性 循环 的 原因 ， 以 及 为 什么 需要 用 DevOps 的 原则 去 缓解 这 种 状 
况 。 首 先 ， 如 前 所 述 ， 每 个 IT 公司 都 有 两 个 对 立 的 目标 ; 其次， 每 家 公司 都 是 一 个 科技 公司 ， 
不 论 他 们 自己 是 否 意识 到 。 

正如 软件 开发 高 管 和 早期 的 DevOps 记录 者 之 一 Christopher Little 所 说 :“ 每 个 公司 都 是 科技 
公司 ， 无 论 他 们 认为 自己 处 在 哪个 行业 。 银 行 也 只 是 拥有 银行 执照 的 I 公司 而 已 ”™ 

要 说 服 自己 这 是 事实 ,考虑 一 下 , 绝 大 多 数 投 资 项 目 都 在 某 种 程度 上 依赖 于 信息 技术 。 俗话 
说 :“ 想 要 做 出 一 个 不 会 带 来 任何 IT 变更 的 商业 决策 几乎 不 可 能 。” 

在 业务 和 财务 方面 , 项 目 都 是 至 关 重 要 的 ,因为 它们 是 企业 内 变革 的 主要 机 制 。 项目 通常 都 
需要 管理 层 来 审批 、 做 预算 和 负责 ， 因 此， 它们 是 实现 企业 目标 和 愿景 的 机 制 , 无 论 是 成 长 还 是 














































































































项 目 通 常 是 通过 资本 投入 ( 即 厂 房 、 设 备 和 重大 项 目 ， 当 预计 要 数 年 以 后 才 有 回报 时 ,支出 
就 资本 化 了 ) 来 供给 资金 的 , 其 中 50% 是 和 技术 相关 的 。 即 便 是 技术 支出 最 低 的 “ 低 科技 ”行业 ， 






































QD 2003 年 ， 欧 洲 的 汇丰 银行 雇用 的 软件 开发 人 员 甚至 比 谷歌 公司 还 多 。 
@) 目前 ， 我 们 暂且 不 讨论 软件 应 该 作为 “项 目 ” 还 是 “产品 ”来 资助 。 本 书后 面 再 讨论 。 
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诸如 能 源 、 冶 金 、 资 源 开采 、 汽 车 和 建筑 行业 也 是 如 此 。 换 句 话 说， 企业 领导 者 想 要 实现 业务 目 
标 ， 对 有 效 开 管 理 的 依赖 程度 远 远 超 出 了 他 们 的 预想 。” 





成 本 : 人 和 经 济 


困 于 这 种 恶性 循环 中 多 年 , 特别 是 那些 处 于 开发 下 游 的 人 , 经 常 感觉 被 困 在 一 个 注定 失败 的 
系统 中 , 无 力 改变 结果 。 伴随 这 种 无 力 感 的 是 倦 念 感 , 还 有 疲劳 、 愤 世 嫉 俗 , 甚至 是 无 助 和 绝望 。 


许多 心理 学 家 认为 ,创建 一 个 让 人 感觉 无 能 为 力 的 系统 , 是 我 们 能 对 人 类 同胞 做 的 最 具 破 坏 
性 的 一 件 事 一 一 我 们 剥夺 了 他 人 控制 自己 成 果 的 能 力 , 甚至 营造 了 一 种 文化 , 让 人 们 因为 害怕 遭 
受 惩罚 、 失 败 或 危及 生存 而 不 敢 做 正确 的 事 。 这 创造 了 “ 习 得 性 无 助 ” 的 环境 ， 人 们 变 得 不 愿 或 
无 法 采取 行动 来 避免 未 来 遇 到 同样 的 问题 。 


对 于 我 们 的 员工 而 言 ， 这 意味 着 长 时 间 工 作 、 周 末 加 班 、 生 活 质量 下 降 ， 而 且 影响 的 不 仅仅 
是 员工 ， 还 有 所 有 依赖 他 们 的 人 , 包括 他 们 的 家 人 和 朋友 。 当 这 种 情况 发 生 时 ,我们 失去 最 好 的 
员工 (除了 那些 因为 责任 感 和 义务 而 觉得 不 能 离开 的 人 ) 也 就 不 足 为 奇 了 。 


除了 人 们 在 当前 这 种 工作 方式 中 受 煎 熬 之 外 , 我 们 能 创造 的 价值 的 机 会 成 本 更 令 人 震惊 
作者 认为 ,我 们 每 年 错失 创造 约 2.6 万 亿美 元 价值 的 机 会 ， 在 撰写 本 书 时 ， 那 相当 于 世界 上 第 六 
大 经 济 体 法 国 的 年 经 济 总 产值 。 


考虑 下 面 的 估算 一 一 IDC 和 高 德 纳 公司 都 估计 ，2011 年 ， 约 5% 的 全 球 GDP ( 即 3.1 万 亿美 
元 ) 用 于 IT ( 含 硬件 、 服 务 和 电信 )。 如 果 我 们 估计 这 3.1 万 亿美 元 中 的 50% 用 于 运营 成 本 和 维 
护 现 有 系统 ， 而 且 这 50% 的 三 分 之 一 用 于 紧急 和 计划 外 工作 或 返工 ， 也 就 是 说 大 约 5200 亿美 元 
被 浪费 了 。 


如 果 采 用 DevOps 能 使 我 们 用 更 好 的 管理 和 卓越 的 运营 减少 一 半 的 浪费 ,并 且 可 以 重新 部 署 
员工 ， 让 他 们 去 做 能 产生 5 倍 价值 的 事 〈 不 算 很 高 )， 我 们 每 年 就 能 够 创造 2.6 万 亿美 元 的 价值 。 























































































































DevOps 的 准则 : 总 有 更 好 的 方法 


前 面 描述 了 根本 的 、 长 期 的 冲突 带 来 的 问题 和 负面 影响 ， 从 无 法 实现 公司 目标 ， 到 对 人 类 同 
胞 造成 的 损害 。 通 过 解决 这 些 问 题 ，DevOps 能 够 提高 公司 业绩 ,实现 开发 、QA、IT 运 维 、 信 息 
安全 等 各 职能 技术 角色 的 目标 ， 同 时 改善 人 们 的 境遇 。 





















































@ 例如 ，Vernon Richardson 博士 及 其 同事 发 表 了 这 个 惊人 的 发 现 。 他 们 研究 了 184 个 公共 公司 的 10-K SEC 申请 (上 
市 公司 向 美国 证 券 交易 委员 会 呈 递 的 年 度 报 告 ), 并 将 其 分 为 3 组 : (A) 公司 有 重大 弱点 , 存在 IT 相关 缺陷 ; (B) 公 
司 有 重大 弱点 , 没有 IT 相关 缺陷 ; (C) 没 有 重大 弱点 的 “干净 的 公司 ”。A 组 公司 的 CEO 流动 率 比 C 组 高 出 8 倍 ， 
而 A 组 的 CFO 流 动 率 比 C 组 高 出 4 倍 。 显 然 ,，IT 的 重要 性 可 能 远 远 超出 了 我 们 通常 所 想 。 
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这 个 令 人 振奋 的 罕见 组 合 可 以 解释 为 什么 DevOps 在 这 么 短 的 时 间 内 激发 出 了 这 么 大 的 兴 
和 热情 ， 包 括 技术 领导 、 工 程 师 ， 以 及 我 们 所 处 的 软件 生态 系统 的 大 部 分 。 





用 DevOps 打破 恶性 循环 


理想 情况 下 ,小 团队 的 开发 人 员 独 立地 实现 自己 的 功能 , 在 类 生产 环境 中 验证 其 正确 性 ,再 
把 代码 快速 、 安 全 、 可 靠 地 部 署 到 生产 环境 里 。 代 码 部 署 是 日 常 的 且 可 预测 的 工作 。 部 署 工作 不 是 
选 在 周 五 的 午夜 开始 、 磨 战 整个 周末 才 完 成 ,而 是 在 每 个 人 都 在 办 公 室 的 工作 日 进行 , 大 多 数 时 
候 甚至 不 会 引起 客户 的 注意 (客户 兴奋 地 看 到 出 现 了 新 功能 或 者 旧 缺 陷 被 修复 了 的 情况 除外 )。 
由 于 代码 部 署 是 在 工作 时 间 段 内 进行 的 , 几 十 年 来 , 开 运 维 人 员 第 一 次 可 以 像 其 他 人 一 样 在 正常 
工作 时 间 段 工作 了 。 


通过 在 流程 中 的 每 一 个 步骤 创建 快速 反馈 回路 ,每 个 人 都 可 以 立即 看 到 工作 效果 。 只 要 代码 
变更 提交 到 了 版 本 控制 系统 , 就 会 在 类 生产 环境 中 运行 快速 的 自动 测试 , 这 持续 地 保证 了 代码 和 
环境 符合 设计 预期 , 并且 总 是 处 在 安全 的 可 部 署 状态 。 


自动 化 测试 可 以 帮助 开发 人 员 快 速 发 现 错误 (通常 在 几 分 钟 之 内 )， 实 现 更 快速 的 修复 以 及 
真正 的 学 习 。 如果 错误 是 在 6 个 月 后 的 集成 测试 中 发 现 的 , 那 时 相关 的 记忆 和 因果 关系 早已 消退 ， 
想 从 中 学 习 是 不 可 能 的 。 自 动 化 测试 使 技术 债务 不 再 积累 ,问题 在 发 现 之 后 就 立即 被 修复 了 。 如 
果 需 要 ， 这 还 可 以 调动 整个 公司 参与 问题 的 处 理 ， 因 为 总 体 目标 高 于 局 部 目标 。 


在 我 们 的 代码 和 生产 环境 中 无 处 不 在 的 遥测 技术 , 保证 了 问题 能 被 迅速 地 发 现 并 纠正 , 确保 
一 切 都 能 按照 预定 的 方式 进行 ， 并 且 客 户 能 从 我 们 创造 的 软件 中 获得 价值 。 


在 这 样 的 场景 下 , 每 个 人 都 感觉 富有 成 效 一 一 这 种 架构 使 得 小 团队 能 够 安全 地 工作 , 同时 在 
架构 上 和 其 他 团队 的 工作 解 厢 ， 这 些 团队 使 用 了 集运 维和 信息 安全 最 佳 实践 于 一 体 的 自 服务 平 
台 。 团队 独立 、 高 效 地 处 理 小 批量 工作 , 快速 旦 频繁 地 为 客户 提供 新 的 价值 ， 而 不 是 每 个 人 都 在 
等 待 ， 面 对 大 量 迟 来 和 紧急 的 返工 。 


通过 黑 启 动 ( dark launch ) 技术 ， 即 便 是 复杂 的 产品 和 功能 发 布 ， 也 变 得 稀 松 平常 了 。 早 在 
发 布 日 期 以 前 , 我 们 就 已 经 将 所 有 功能 的 代码 部 署 到 了 生产 环境 中 , 它 只 对 内 部 员工 和 部 分 真实 
用 户 可 见 。 这 使 得 我 们 能 够 测试 和 改进 其 功能 ， 直 到 达到 预期 的 业务 目标 。 


想 要 让 新 功能 生效 , 我 们 只 需要 改变 一 个 功能 开关 或 者 配置 项 即 可 , 而 不 再 需要 经 历数 天 或 
者 数 周 的 辛 苗 工 作 。 这 个 小 变更 使 新 功能 对 更 大 规模 的 客户 群 可 见 , 一 旦 出 现 错误 ,就 会 自动 地 
回 深 。 因 此 ， 发 布 新 功能 变 得 可 控 、 可 预测 、 可 逆 ， 且 压力 也 小 了 。 

除了 新 功能 的 发 布 变 得 更 加 顺利 外 , 各 种 问题 都 能 在 其 规模 小 、 修 复 容易 且 成 本 低 的 时 候 发 
现 并 修复 。 通 过 每 次 的 问题 修复 , 我 们 也 让 公司 得 到 了 经 验 和 教训 ， 能够 防止 问题 复发 , 并 且 能 
在 未 来 更 快 地 定位 和 修复 相似 的 问题 。 
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此 外 ,每 个 人 都 在 不 断 地 学 习 ， 从 而 营造 出 了 一 种 假设 驱动 的 文化 ,用 科学 的 方法 保证 一 切 
都 得 到 了 充分 的 验证 一 一 在 对 产品 开发 和 流程 改进 进行 有 目的 的 衡量 和 实验 之 前 不 做 任何 工作 。 


因为 我 们 珍惜 大 家 的 时 间 , 所 以 不 会 花 几 年 的 时 间 去 打造 客户 不 想 要 的 功能 , 不 会 部 署 根本 
就 不 能 用 的 代码 ， 也 不 会 修复 非 问题 根源 的 缺陷 。 


由 于 我 们 关心 目标 的 实现 ,所 以 建立 了 长 期 的 团队 责任 制 , 负责 目标 的 实现 。 在 一 般 的 项 目 
队 中 ,每 次 软件 发 布 以 后 开发 人 员 就 被 打 散 并 重新 分 配 了 ,他 们 没有 机 会 得 到 自己 工作 的 反馈 ; 
我 们 则 保持 团队 的 完整 性 , 这 样 团队 可 以 进行 迭代 和 改进 , 用 团队 各 成 员 所 学 到 的 经 验 来 更 好 地 
实现 目标 。 对 于 给 外 部 客户 解决 问题 的 产品 团队 ,以 及 帮助 其 他 团队 提高 生产 力 、 可 靠 性 和 安全 
性 的 内 部 平台 团队 来 说 ， 这 一 点 同样 重要 。 


我 们 的 团队 文化 体现 了 高 度 的 信任 与 合作 ， 而 不 是 指责 ， 人 们 会 因为 冒险 而 获得 回报 。 他 们 
可 以 无 所 晨 惧 地 讨论 问题 ， 而 不 是 把 问题 隐藏 起 来 或 者 往 后 拖延 一 一 毕竟 , 我 们 只 有 先 认 识 到 了 
问题 ， 才 能 解决 问题 。 


而 且 , 因为 所 有 人 都 需要 对 自己 的 工作 质量 负 完 全 的 责任 , 所 以 每 个 人 在 日 常 的 工作 中 都 创 
建 自动 化 测试 , 并 且 使 用 同行 评审 的 方式 来 保证 在 问题 影响 到 客户 之 前 就 解决 它 。 与 从 管理 层 向 
下 授权 审批 的 方式 相反 ， 上 述 过 程 降低 了 风险 ,让 我 们 能 快速 、 可 靠 、 安 全 地 交付 价值 ， 甚 至 可 
以 在 挑剔 的 评审 人 员 面前 证 明 我 们 拥有 一 个 高 效 的 内 部 控制 系统 。 


在 出 现 问题 时 ,我 们 进行 不 指责 的 事后 分 析 ， 这 并 不 是 要 惩罚 某 人 ， 而 是 为 了 更 好 地 理解 导 
事故 的 原因 ， 以 及 如 何 防止 事故 再 次 发 生 。 这 个 方法 强化 了 我 们 的 学 习 文化 。 我 们 还 通过 举办 
内 部 技术 研讨 会 来 提高 技能 ， 保 证 所 有 人 不 是 在 教 就 是 在 学 。 


因为 注重 质量 , 所 以 我 们 甚至 会 故意 在 生产 环境 中 注入 故障 , 从 而 了 解 系统 是 怎样 以 预期 方 
式 发 生 故 障 的 。 我 们 按照 计划 做 大 规模 的 故障 演练 ， 随 机 结束 生产 环境 中 的 进程 ， 中 断 正在 运行 
的 服务 器 ， 同 时 还 注入 网 络 延 迟 以 及 其 他 恶意 因素 ,以 此 来 确保 系统 的 可 靠 性 。 这 样 的 方式 为 我 
们 的 系统 带 来 了 更 高 的 可 靠 性 ， 同 时 为 整个 公司 提供 了 更 好 的 学 习 和 提高 机 会 。 

在 这 个 世界 里 , 不 论处 于 科技 公司 的 哪个 岗位 , 每 个 人 都 是 自己 工作 的 主人 。 他们 坚信 自己 
的 工作 很 重要 , 并 为 公司 的 目标 出 了 一 份 力 , 低压 力 的 工作 环境 以 及 公司 在 市 场 上 的 成 功 足以 证 
明 这 一 切 。 公 司 在 市 场 上 取得 的 业绩 就 是 最 好 的 证 据 。 



























































































































































DevOps 的 业务 价值 


对 于 DevOps 的 业务 价值 ,我 们 有 确凿 的 证 据 。 从 2013 年 到 2016 年 , 在 Puppet Labs 的 年 度 
DevOps 现状 报告 中 (本 书 作 者 Jez Humble 和 Gene Kim 为 报告 做 出 了 贡献 )， 我 们 对 25 000 多 名 
技术 专家 进行 了 数据 收集 ， 目 的 是 更 好 地 了 解 企业 应 用 DevOps 不 同 阶段 的 运 维 状况 和 习惯 。 
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这 份 数 据 第 一 个 让 人 震惊 的 地 方 就 是 ， 应 用 了 DevOps 的 高 绩效 公司 在 以 下 方面 的 表现 远 超 
低 绩效 同行 : 


口 吞吐 量 指标 ; 

口 代码 和 变更 部 署 次 数 (频繁 30 倍 ); 

口 代码 和 变更 部 署 前 置 时 间 ( 快 200 倍 ) 

口 可 靠 性 指标 ; 

口 生产 环境 部 署 〈 变 更 成 功率 高 60 倍 ); 

口 平均 服务 恢复 时 间 ( 快 168 倍 ); 

口 组 织 性 能 指标 ; 

口 生产 力 、 市 场 份额 以 及 营业 目标 (大约 2 倍 以 上 ); 
口 市 值 增长 (3 年 内 高 出 50% )。 


换 句 话说 ， 高 绩效 者 要 更 加 敏捷 和 可 靠 ， 这 证 明 DevOps 能 够 打破 根本 的 、 长 期 的 冲突 。 高 
绩效 者 部 署 代码 的 频率 要 高 出 30 多 倍 ， 从 “代码 提交 ”到 “在 生产 环境 中 顺利 运行 ”的 速度 要 



































快 200 倍 一 一 高 绩效 者 的 交付 周期 是 以 分 钟 或 小 时 来 计量 的 ， 而 低 绩效 考 的 交付 周期 则 以 周 、 月 
甚至 季度 来 计量 。 





此 外 , 高 绩效 者 有 两 倍 的 利润 率 、 市场 份额 、 生 产 率 目标 。 而 且 , 对 于 那些 已 经 上 市 的 企业 ， 
我 们 发 现 高 绩效 者 在 3 年 内 的 股票 市 值 增长 率 高 出 50%。 他 们 的 员工 满意 度 高 ,员工 倦 念 程度 低 ， 
把 公司 推荐 给 朋友 的 可 能 性 要 高 出 2.2 倍 。 "高 绩效 者 信息 安全 成 果 也 更 好 。 通 过 将 安全 目标 集 
成 到 开发 和 运 维 流 程 的 所 有 阶段 ， 他 们 用 在 安全 问题 修复 上 的 时 间 减 少 了 50%。 






































DevOps 有 助 于 提高 开发 人 员 的 生产 力 


当 我 们 增加 开发 人 员 的 数量 时 ,由 于 沟通 、 集 成 以 及 测试 开销 , 单个 开发 人 员 的 生产 力 通常 
会 显著 下 降 。Frederick Brooks 在 其 著名 的 《人 月 神话 》 一 书 中 强调 过 这 一 点 。 他 解释 说 ， 当 项 
目 延 迟 时 , 增加 更 多 的 开发 人 员 不 仅 降 低 了 单个 开发 人 员 的 生产 力 , 而 且 也 降低 了 整体 的 生产 力 。 

另 一 方面 ，DevOps 证 明了 在 拥有 正确 的 架构 、 技 术 实 践 和 文化 规范 的 情况 下 ， 小 型 开发 团 
队 能 够 快速 安全、 独立 地 开发 集成、 测试 和 部 署 变更 到 生产 环境 。 前 谷歌 工程 总 监 Randy Shoup 
发 现 , 使 用 DevOps 的 大 型 企业 “拥有 数 千 名 开发 人 员 ， 但 小 团队 依然 能 受益 于 他 们 的 组 织 架构 
和 实践 ， 具 有 像 创业 公司 一 般 惊 人 的 生产 力 ”。 


《2015 年 DevOps 现状 报告 》 不 仅 调查 了 “每 天 的 部 署 次 数 "， 还 调查 了 “每 天 每 个 开发 人 员 





























Q 结果 基于 员工 净 推 荐 值 (eNPS )。 这 是 一 个 重大 的 发 现 ， 有 研究 已 经 证 明 :“ 员 工 参与 度 较 高 的 公司 的 收益 增长 是 
员工 参与 度 较 低 的 公司 的 2.5 倍 , 拥有 高 度 信任 的 工作 环境 的 上 市 公司 的 股票 在 1997 ~ 2011 年 期 间 高 出 市 场 指数 
的 1/3。” 
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的 部 署 次 数 "。 我 们 假设 高 绩效 公司 可 以 随 着 团队 人 员 数 量 的 增长 而 增加 部 署 次 数 。 
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10 100 1000 
开发 人 员 数 量 
图 0-1 每 日 部 署 次 数 与 开发 者 人 数 〈 另 见 彩 择 ) 
(来 源 : Puppet Labs 的 《2015 年 DevOps 现状 报告 》) ? 
这 就 是 我 们 的 发 现 。 图 0-1 展示 了 在 团队 人 数 增加 时 ， 低 绩效 公司 每 个 开发 人 员 每 天 的 部 署 
次 数 在 降低 ， 中 等 绩效 公司 维持 不 变 ， 而 高 绩效 公司 则 线性 增加 。 
换 名 话说， 在 应 用 了 DevOps 的 企业 中 ， 在 开发 人 员 数量 增加 时 ， 每 天 的 部 署 次 数 时 线性 增 
加 趋势 ; 谷歌 、 亚 马 逊 以 及 Netflix 已 经 做 到 了 。” 























解决 方案 的 通用 性 

精益 制造 运动 中 最 有 影响 力 的 图 书 之 一 是 1984 年 由 Eliyahu M. Goldratt 博士 写 的 《目标 : 简 
单 而 有 效 的 常识 管理 》 它 影响 了 世界 各 地 整整 一 代 的 专业 的 工厂 经 理 。 这 是 一 本 关于 工厂 经 理 
的 小 说 , 书 中 的 主人 公 必 须 在 90 天 内 解决 成 本 和 产品 交 货 时间 的 问题 , 否则 他 的 工厂 将 被 关闭 。 


在 他 的 职业 生涯 后 期 ，Goldratt 博士 提 到 了 《目标 》 的 读者 反馈 信件 。 这 些 信件 通常 写 道 : 
“显然 你 曾经 在 我 们 工厂 待 过 ， 因 为 你 准确 地 描述 了 我 作为 工厂 经 理 的 生活 ……” 最 重要 的 是 ， 
这 些 信 件 表明 ， 人 们 能 够 在 自己 的 工作 环境 中 重 现 书 中 描述 的 业绩 突破 。 


Gene Kim、Kevin Behr 以 及 George Spafford 在 2013 年 所 著 的 《凤凰 项 目 : 一 个 开 运 维 的 传 
奇 故事 》 在 很 大 程度 上 借鉴 了 《目标 》 的 写法 。 这 本 小 说 的 主人 公 是 一 位 IT 部 门 经 理 ， 他 面 对 
IT 公 司 所 特有 的 全 部 典型 问题 : 项 目 预 算 超支 ,进度 一 再 拖延 , 为 了 公司 的 存亡 不 得 不 上 线 。 他 
经 历 了 灾难 般 的 部 署 ， 也 面 对 过 可 用 性 、 安 全 性 、 合 规 性 等 方面 的 问题 。 最终 ， 他 和 他 的 团队 采 

































































@ 网 上 只 展示 了 每 天 至 少 部 署 一 次 的 企业 数据 。 
@) 另 一 个 更 加 极端 的 例子 是 亚马逊 。2011 年 ,亚马逊 每 天 部 署 近 7000 次 ; 到 2015 年 ,他 们 每 天 要 部 署 130 000 次 。 
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用 DevOps 的 原则 和 实践 战胜 了 以 上 困难 ， 帮 助 公司 启 得 了 市 场 。 此 外 ， 该 小 说 展示 了 DevOps 
实践 如 何 改 善 团 队 工 作 环 境 ， 让 员工 参与 整个 过 程 ， 进 而 减轻 了 压力 并 提高 了 满意 度 。 


和 《目标 》 相 同 ,《 凤 凰 项 目 》 所 描述 的 问题 和 解决 方案 很 普遍 。 看 看 亚马逊 上 对 该 书 的 部 
分 评价 :“ 我 发 现 自己 与 《凤凰 项 目 》 的 人 物 有 共鸣 ……' 我 在 职业 生涯 中 可 能 遇 到 过 其 中 的 大 部 
分 人 。“ 如 果 你 曾 从 事 IT、DevOps 或 信息 安全 等 方面 的 工作 ,一 定 感同身受 。”“ 我 能 将 《 凤 央 
项 目 ) 中 的 所 有 人 物 与 自己 或 者 现实 生活 中 所 认识 的 人 对 应 起 来 …… 更 不 要 说 那些 人 物 面临 和 克 
服 的 问题 了 。” 


在 本 书 的 余下 部 分 里 , 我 们 将 介绍 如 何 复制 《凤凰 项 目 》 中 所 描述 的 转型 ， 并 提供 丰富 的 案 
例 研 究 ， 展 示 其 他 公司 是 如 何 应 用 DevOps 原则 和 实践 来 取得 这 些 成 果 的 。 















































阅读 指南 


本 书 的 目标 是 向 你 提供 从 启动 DevOps 转型 到 实现 目标 成 果 所 必需 的 理论 、 原 则 和 实践 。 这 
本 指南 基于 几 十 年 优秀 的 管理 理论 、 对 高 绩效 科技 组 织 的 研究 、 我 们 帮助 企业 实现 DevOps 转型 
所 做 的 工作 、 验 证 本 书 中 DevOps 实践 的 有 效 性 的 研究 、 对 相关 领域 专家 的 访谈 , 以 及 对 “DevOps 
企业 峰会 ”所 分 享 的 近 100 个 案例 的 分 析 。 

本 书 分 为 6 个 部 分 , 使 用 “三 步 工 作法 ”涵盖 了 DevOps 理论 及 原则 。“ 三 步 工 作法 ”是 《 风 
凰 项 目 》 一 书 中 提出 的 , 是 看 待 基 础 理论 的 一 种 视角 。 本 书 不 仅 适用 于 从 事 或 影响 技术 价值 流 ( 通 
常 包括 产品 管理 、 开 发 、QA、IT 运 维和 信息 安全 ) 中 工作 的 所 有 人 ， 而 且 也 适用 于 业务 和 市 场 
领导 者 ， 大 部 分 技术 计划 都 源 自 他 们 。 

读者 并 不 需要 具备 这 些 领域 的 丰富 知识 ， 也 不 需要 对 DevOps、 敏 捷 、ITIL、 精 益 或 流程 优 
化 有 全 面 的 认识 ， 因 为 这 些 主题 会 在 书 中 需要 的 地 方 了 予以 介绍 。 

我 们 的 目的 是 建立 起 各 个 领域 中 核心 概念 的 应 用 知识 ， 并 以 此 为 基础 来 引入 其 他 必要 的 内 
容 ， 从 而 帮助 实践 者 与 所 有 同事 在 整个 代价 值 流 中 一 起 工作 ， 并 建立 共享 的 目标 。 

本 书 对 业务 领导 者 和 越 来 越 依赖 技术 组 织 去 实现 目标 的 利益 相关 者 而 言 将 很 有 价值 。 

此 外 , 本 书 也 适合 所 在 公司 不 存在 本 书 中 描述 的 所 有 问题 (例如 ,部署 周期 长 或 部 署 过 程 痛 
兰 ) 的 人 。 这 些 幸 运 的 读者 也 将 因 理解 DevOps 的 原则 而 受益 ， 特 别 是 那些 关于 共同 目标 、 反 馈 
和 持续 学 习 的 原则 。 

在 第 一 部 分 中 ,我们 将 简要 介绍 DevOps 的 历史 ， 并 介绍 几 十 年 来 相关 知识 体系 的 理论 基础 
和 关键 主题 ， 然 后 概要 地 介绍 “三 步 工 作法 ”的 原则 : 流动 、 反 馈 和 持续 学 习 与 实验 。 


第 二 部 分 将 描述 怎样 开始 以 及 从 哪里 开始 ,并 介绍 各 种 概念 ， 如 价值 流 、 组 织 设计 原则 与 模 
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式 、 组 织 导 入 模式 和 案例 研究 。 


第 三 部 分 将 介绍 如 何 通 过 构建 部 署 流 水 线 的 基础 来 加 速 流动 : 实现 快速 有 效 的 自动 化 测试 、 
持续 集成 、 持 续 交 付 和 为 低 风险 发 布 做 架构 。 


第 四 部 分 将 讨论 如 何 通 过 建立 有 效 的 生产 环境 遥测 来 发 现 和 人 解决 问题 ， 从 而 加 速 和 增强 反 
馈 ， 更 好 地 预测 问题 和 实现 目标 ， 获 得 反馈 以 便 开发 人 员 和 运 维 人 员 可 以 安全 地 部 署 变 更 ,将 
A/B 测试 集成 到 日 常 工作 中 ， 以 及 创建 审查 和 协调 流程 来 提高 我 们 的 工作 质量 。 

第 五 部 分 将 描述 如 何 通 过 建立 公正 的 文化 , 将 本 地 发 现 转化 为 全 局 性 改进 , 预 留 出 一 定 的 时 
间 来 进行 组 织 学 习 和 提高 ， 从 而 加 速 持续 学 习 。 

最 后 , 第 六 部 分 将 介绍 如 何 通过 把 预防 性 安全 控制 集成 到 共享 源 代 码 库 和 服务 中 , 将 安全 性 
集成 到 部 署 流程 中 , 增强 遥测 以 实现 更 好 的 检测 和 恢复 ,保护 部 署 流水 线 ， 以 及 实现 变更 管理 目 
标 ， 从 而 将 安全 性 和 合 规 性 正确 集成 到 日 常 工作 中 。 

通过 整理 这 些 实践 , 我 们 希望 加 速 DevOps 实践 的 导入 和 应 用 , 提高 DevOps 计划 的 成 功率 ， 
并 降低 激活 DevOps 转型 所 需 的 能 量 。 
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DevOps 介绍 








在 本 书 的 第 一 部 分 中 ,我 们 将 回顾 在 管理 和 技术 领域 里 所 发 生 的 几 个 重大 事件 ， 了 解 它 们 
是 怎样 为 DevOps 的 诞生 奠定 了 基础 的 。 同 时 ,我 们 还 将 介绍 “价值 流 ” 这 个 概念 ， 解 释 为 什 
么 DevOps 是 把 精益 原则 应 用 到 技术 价值 流 中 的 结果 ， 并 探讨 DevOps 的 三 步 工作 法 : 流动 、 反 
馈 以 及 持续 学 习 与 实验 。 


第 一 部 分 包括 以 下 内 容 。 


口 流动 原则 : 它 加 速 了 从 开发 、 运 维 到 交付 给 客户 的 流程 。 
口 反馈 原则 : 它 使 我 们 能 建设 出 更 安全 可 靠 的 工作 体系 。 
口 持续 学 习 与 实验 原则 : 它 打造 出 一 种 高 度 信任 的 文化 和 一 种 科学 的 工作 方式 ， 并 将 对 组 
织 的 改进 和 创新 作为 日 常 工作 的 一 部 分 。 


简 史 

DevOps 和 它 所 产生 的 技术 、 架 构 及 文化 实践 ， 体 现 了 哲学 和 管理 学 原则 的 融合 。 虽 说 这 些 
原则 是 由 不 同 组 织 独立 发 现 的 ， 但 DevOps 博采众长 ， 形 成 了 John Willis ( 本 书 作者 之 一 ) 所 说 
的 “DevOps 的 大 融合 "， 展 现 了 人 们 思想 上 的 惊人 进步 和 不 可 思议 的 相互 关联 。 基 于 制造 业 实 
践 了 数 十 年 的 管理 经 验 ， 它 是 将 可 靠 性 组 织 、 信 任 度 管理 与 DevOps 实践 相 结 合 的 产物 。 































































































DevOps 基于 精益 、 约 束 理论 、 丰 田 生 产 系 统 、 柔 性 工程 、 学 习 型 组 织 、 安 全 文化 、 人 员 优 
化 因素 等 知识 体系 ， 并 参考 了 高 信任 管理 文化 、 服 务 型 领导 、 组 织 变动 管理 等 方法 论 。 把 所 有 
这 些 最 可 信 的 原则 综合 地 应 用 到 IT 价值 流 中 ， 就 产生 出 DevOps 这 样 的 成 果 。 将 它 贯彻 于 整个 
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技术 价值 流 中 ， 涉 及 产品 管理 、 开 发 、QA、IT 运 维和 信息 安全 专员 等 不 同 角色 ， 在 更 低 的 成 本 
和 努力 下 ， 保 障 产 品 的 高 质量 、 可 靠 性 、 稳 定性 和 安全 性 。 


虽然 DevOps 是 精益 原则 、 约 束 理论 和 丰田 套路 运动 的 衍生 物 ， 但 也 被 许多 人 视 为 始 于 
2001 年 的 敏捷 运动 的 延续 。 





























精 荔 运 动 
价值 流 映 射 .看板 和 全 面 生产 维护 这 些 实践 起 源 于 20 世纪 80 年 代 的 丰田 生产 系统 。1997 年 ， 
精益 企业 协会 开始 研究 如 何 将 精益 理念 应 用 于 服务 业 和 医疗 行业 等 其 他 价值 流 中 。 


精益 的 两 个 主要 原则 包括 : 坚信 和 前 置 时 间 ( 把 原材料 转换 为 成 品 所 需 的 时 间 ) 是 提升 质量 、 
客户 满意 度 和 员工 幸福 感 的 最 佳 度量 指标 之 一 ; 小 批量 任务 的 交付 是 缩短 前 置 时 间 的 一 个 关键 


精益 原则 只 焦 在 如 何 通 过 系统 性 思考 为 客户 创造 价值 ， 系 统 性 思考 的 范围 涉及 建立 持久 目 
标 ,拥抱 科学 思维 ,创造 流 和 拉动 ( 而 非 推 送 ) 的 协作 模式 ,提倡 从 源头 保证 质量 ,以 谦逊 为 导向 ， 
尊重 流程 中 的 所 有 个 体 。 








































































































敏捷 宣言 


敏捷 宣言 是 在 2001 年 由 软件 领域 的 17 位 顶尖 大 师 共 同 提出 的 。 他 们 和 希望 用 一 套 轻 量 级 的 
价值 观 和 原则 体系 , 来 优化 那些 沉重 的 软件 开发 流程 ( 如 传统 的 瀑布 式 开发 模型 ) 和 方法 论 〈 如 
统一 软件 开发 过 程 )。 


在 敏捷 宣言 中 ， 一 个 重要 的 原则 是 “频繁 地 交付 可 工作 的 软件 ， 交 付 周期 可 以 是 数 星期 也 
可 以 是 数 月 ， 推 荐 更 短 的 周期 *， 并 强调 使 用 小 批量 任务 进行 增 量 发 布 ， 而 非 大 规模 的 作业 和 党 
布 流程 的 发 布 。 同 时 ， 强 调 建 立 自 组 织 的 小 团队 ， 让 成 员 在 高 度 信任 的 环境 中 愉悦 地 工作 。 

在 很 多 实施 了 敏捷 的 企业 里 ， 生 产 效率 显著 提升 ， 敏 捷 也 因此 获得 了 越 来 越 广泛 的 支持 和 


认可 。 有 趣 的 是 ， 在 DevOps 的 发 展 历程 中 ， 如 下 所 述 的 几 个 关键 活动 都 发 源 于 敏捷 社区 或 者 
敏捷 大 会 。 















































敏捷 基础 设施 和 Velocity 大 会 

在 2008 年 加 拿 大 多 伦 多 的 敏捷 大 会 上 ,Patrick Debois 和 Andrew Clay Schafer 主持 了 一 场 研讨 ， 
提倡 将 敏捷 原则 应 用 到 基础 设施 而 不 是 应 用 程序 的 代码 上 。 尽 管 研讨 的 参与 者 数量 并 没有 达到 预 
期 ， 但 是 他 们 还 是 很 幸运 地 找到 了 几 个 志同道合 者 ， 其 中 包括 本 书 作者 之 一 John Willis。 



































在 2009 年 的 Velocity 大 会 上 ，John Allspaw 和 Paul Hammond 分 享 了 题 为 “每 日 10 次 部 署 : 
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Dev 和 Ops 在 Flickr 的 协作 ”的 演讲 ， 讲 述 了 他 们 如 何 建立 Dev 和 Ops 共享 的 目标 ， 并 通过 运 
用 持续 集成 等 实践 ， 将 部 署 变 成 了 日 常 工作 的 一 部 分 。 据 当时 在 场 的 听众 回忆 道 ， 所 有 的 参与 
者 都 认为 他 们 见证 了 这 个 具有 深远 意义 的 历史 性 时 刻 。 











虽然 Patrick Debois 并 不 在 现场 ， 但 他 对 Allspaw 和 Hammond 的 想法 产生 了 浓厚 的 兴 
并 在 2009 年 比利时 的 根 特 市 (他 的 居住 地 ) 发 起 了 第 一 次 DevOpsDays 活动 。“DevOps” 这 个 
术语 也 应 运 而 生 。 


持续 交付 


基于 持续 构建 、 测 试 和 集成 的 开发 原则 ，Jez Humble 和 David Farley 进行 了 延伸 ， 提 出 了 
持续 交付 ， 并 首次 在 2006 年 的 敏捷 大 会 上 做 了 分 享 。 在 持续 交付 中 ,“ 部 署 流水 线 ” 确 保 代 码 
和 基础 设施 始终 处 于 可 部 署 状态 ,所 有 提交 到 主干 的 代码 都 可 以 安全 地 部 署 到 生产 环境 ,2009 年 ， 
Tim Fitz 在 博客 上 发 表 了 一 篇 题 为 “持续 部 署 ” 的 文章 。" 


丰田 套路 


Mike Rother 在 2009 年 编写 了 《丰田 套路 : 转变 我 们 对 领导 力 与 管理 的 认 知 》 一 书 ， 书 中 
融入 了 他 在 丰田 产品 系统 (TPS ) 中 所 积累 的 20 年 实践 经 验 。 他 也 曾 参与 了 精益 工具 箱 的 制作 。 
Mike 在 读 人 研究 生 期 间 ， 曾 和 通用 汽车 公司 的 高 层 一 起 去 日 本 参观 丰田 工厂 ， 有 一 件 事 让 他 感到 
困惑 : 所 有 应 用 精益 原则 的 公司 中 ,没有 一 家 能 达到 丰田 的 水 平 。 


之 后 ,Mike 得 出 了 结论 :精益 社区 中 大 多 数 企 业 都 没有 抓 住 精益 的 核心 一 一 改善 套路 ( Kata )。 
他 解释 说 ， 所 有 企业 都 有 日 常 的 工作 流程 ， 而 这 些 日 常 工 作 决 定 了 最 终 的 产 出 。 通 过 设 定 目标 ， 
制订 每 周 的 详细 计划 ， 并 持续 改善 日 常 工作 ， 如 此 循序 渐进 ， 才 能 达到 优化 和 改进 的 目的 。 


以 上 描述 了 DevOps 的 发 展 历史 和 大 事 记 。 在 接 下 来 的 内 容 里 ， 我 们 将 主要 介绍 价值 流 ， 
以 及 如 何 将 精益 原则 应 用 到 技术 价值 流 中 ; 同时 介绍 三 步 工作 法 :流动 、 反 馈 和 持续 学 习 与 实验 。 

























































































@ 另外 ，DevOps 还 基于 并 拓展 了 “基础 设施 即 代 码 ” 的 实践 ， 该 实践 由 Mark Burgess 博士 、Luke Kanies 和 Adam 
Jacob 共同 提出 。 在 “基础 设施 即 代 码 ” 这 种 实践 中 ， 运 维 工 作 被 最 大 程度 地 自动 化 ， 并 确保 任何 对 基础 设施 
的 操作 都 通过 代码 来 实现 ， 从 而 将 现代 软件 的 开发 实践 应 用 到 了 整个 产品 交付 中 ， 其 特性 包括 持续 集成 (由 
Grady Booch 提出 ， 是 极限 编程 的 12 个 实践 之 一 )、 持 续 交 付 (由 Jez Humble 和 David Farley 提出 ) 和 持续 部 署 

(由 Etsy、Wealthfront 和 Eric Ries 在 IMVU 的 工作 中 提出 )。 





































































































敏捷 、 持 续 交 付 和 三 步 法 











本 章 将 阐释 精益 制造 的 基础 理论 和 三 步 工作 法 原则 ， 从 后 者 能 衍生 出 各 种 DevOps 行为 。 


我 们 侧重 于 这 些 理论 和 原则 ,它们 记录 了 制造 业 、 高 可 靠 性 企业 、 高 信任 管理 模型 等 儿 十 年 
的 经 验 ，DevOps 实践 正 是 基于 这 些 经 验 往生 而 来 的 。 具 体 的 原则 和 模式 及 其 在 技术 价值 流 中 的 
应 用 ， 会 在 本 书 的 后 续 章 节 中 陆续 呈现 。 























1.1 制造 业 价 值 流 


精益 中 的 一 个 基本 概念 叫价 值 流 。 我 们 先 在 制造 业 的 场景 中 定义 它 , 再 讨论 如 何 将 它 应 用 到 
DevOps 和 技术 价值 流 中 。 


Karen Martin 和 Mike Osterling 曾 在 lue Stream Mapping 一 书 中 把 价值 流 定义 为 “一 个 组 织 
基于 客户 的 需求 所 执行 的 一 系列 有 序 的 交付 活动 "， 或 者 是 “为 了 给 客户 设计 、 生 产 和 提供 产品 
或 服务 所 需 从 事 的 一 系列 活动 ， 它 包含 了 信息 流 和 物料 流 的 双重 价值 ”。 


在 制造 业 的 流程 中 , 价值 流 随处 可 见 , 它 始 于 接收 到 客户 订单 并 将 原材料 发 往 工厂 。 为 了 缩 
短 和 预测 价值 流 中 的 前 置 时 间 , 通常 需要 持续 地 关注 如 何 建立 一 套 流畅 的 工作 流程 , 包括 减 小 批 
量 尺 寸 、 减少 在 制品 ( Work in Process，WIP ) 数量 、 避 人 免 返 工 等 ， 同 时 还 需要 确保 不 会 将 次 品 
传递 到 下 游 的 工作 中 心 ， 并 持续 不 断 地 基于 全 局 目标 来 优化 整个 系统 。 
































1.2 技术 价值 流 


在 制造 业 中 加 速 物理 产品 加 工 流程 的 原则 和 模式 ,同样 可 以 应 用 到 技术 工作 ( 及 所 有 知识 工 
作 ) 中 。 在 DevOps 中 ,我们 通常 将 技术 价值 流 定 义 为 “把 业务 构想 转化 为 向 客户 交付 价值 的 、 
由 技术 驱动 的 服务 所 需要 的 流程 ”。 


流程 的 输入 是 既定 的 业务 目标 、 概 念 、 创 意 和 假设 , 始 于 研发 部 门 接受 工作 ,并 将 它 添加 到 
待 完成 工作 列表 中 。 
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接受 了 工作 之 后 , 人 研发 团队 将 运用 敏捷 或 迭代 的 开发 流程 , 将 那些 想法 转化 为 用 户 故事 以 及 
某 种 功能 性 说 明 ， 然 后 通过 编写 程序 代码 实现 , 再 将 代码 签 入 到 版 本 控制 库 中 , 接 下 来 每 次 变更 
都 将 集成 到 软件 系统 并 进行 整体 测试 。 

应 用 程序 或 服务 只 有 在 生产 环境 中 按 预 期 正常 地 运行 , 并 为 客户 提供 服务 , 所 有 的 工作 才 产 


生 价 值 。 所 以 , 我们 不 但 要 快速 地 交付 ， 同 时 还 要 保证 部 署 工作 不 会 产生 混乱 和 破坏 ,如 中 断 客 
户 服 务 、 性 能 下 降 或 者 信息 安全 不 合 规 等 问题 。 























1.2.1 聚焦 于 部 署 前 置 了 时间 


部 署 的 前 置 时 间 是 价值 流 的 一 个 子 集 ， 也 是 本 书 讨论 的 重点 。 价 值 流 始 于 工程 师 ”( 包括 开 
发 、QA、IT 运 维和 信息 安全 人 员 ) 向 版 本 控制 系统 中 提交 了 一 个 变更 ， 止 于 变更 成 功 地 在 生 F 
环境 中 运行 ， 为 客户 提供 价值 ， 并 生成 有 效 的 反馈 和 监控 信息 。 


在 第 一 个 阶段 中 , 工作 主要 包括 设计 和 开发 ， 它 和 精益 产品 开发 有 很 多 相似 之 处 : 都 具有 高 
度 的 变化 性 和 不 确定 性 ,不 仅 需 要 创意 ， 某 些 工 作 还 可 能 无 法 重 来 ， 这 导致 无 法 确定 总 体 处 理 时 
间 。 在 第 二 个 阶段 中 ,工作 主要 包括 测试 和 运 维 ， 它 类 似 于 精益 制造 。 相 比 前 一 个 阶段 ， 它 需要 
创造 性 和 专业 技能 ， 力 求 可 预见 性 和 自动 化 ， 将 可 变性 降 到 最 低 ( 如 短 的 和 可 预测 的 前 置 时 间 ， 
接近 零 缺 陷 )， 并 满足 业务 目标 。 

我 们 并 不 提倡 在 设计 、 开 发 中 串 行 地 完成 了 大 批量 的 工作 后 ， 再 转 和 人 测试、 运 维 阶段 ( 如 使 
用 大 批量 、 基 于 瀑布 模型 的 开发 流程 ， 工 作 在 长 生命 周期 的 特性 分 支 上 )。 恰 恰 相 反 ， 我 们 的 目 
标 是 采用 测试 和 运 维 与 设计 和 开发 同步 的 模式 ， 从 而 产生 更 快 的 价值 流 和 更 高 的 质量 。 只 有 当 工 
作 任务 是 小 批量 的 ， 并 将 质量 内 建 到 价值 流 的 每 个 部 分 时 ， 这 种 同步 的 模式 才能 实现 。? 

1. 定义 前 置 时 间 和 处 理 时 间 

在 精益 社区 里 ， 前 置 时 间 与 处 理 时 间 ( 有 时 候 也 被 称 为 接触 时 间或 者 任务 时 间 ) “是 度量 价 
值 流 性 能 的 两 个 常用 指标 。 

前 置 时 间 在 工 单 创 建 后 开始 计时 , 到 工作 完成 时 结束 ; 处 理 时 间 则 从 实际 开始 处 理 这 个 工作 
时 才 开 始 计时 ， 它 不 包含 这 个 工作 在 队列 中 排队 等 待 的 时 间 ( 见 图 1-1 )。 


因为 前 置 时 间 是 客户 能 够 体验 到 的 时 间 , 所 以 我 们 把 重点 放 在 缩短 前 置 时 间 而 不 是 处 理 时 间 
上 。 不 过 ,处 理 时 间 与 前 置 时 间 的 比率 是 十 分 重要 的 效率 指标 , 为 了 实现 快速 的 流动 并 缩短 前 置 
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Q@ 从 目前 开始 ， 工 程 师 指 的 是 在 我 们 的 价值 流 中 的 任何 工作 者 ， 而 不 仅仅 指 开发 人 员 。 

@) 事实 上 ， 使 用 类 似 测 试 驱动 开发 的 技术 ， 测 试 甚至 可 以 发 生 在 编写 第 一 行程 序 代 码 之 前 。 

@ Karen Martin 和 Mike Osterling 曾 说 :“ 为 了 避免 混淆 ， 我 们 不 使 用 “循环 时 间 ” 这 个 词 ， 因 为 它 还 有 其 他 的 同 义 
词 一 一 处 理 时 间 、 输 出 速率 或 输出 频率 等 。” 同 理 ， 本 书 中 主要 使 用 “处 理 时 间 ” 一 词 。 







































































6 第 1 章 敏捷 、 持 续 交 付 和 三 步 法 





时 间 ， 必 须 缩 短工 作 在 队列 中 的 等 待 时 间 。 
前 置 时 间 





创建 工 单 工作 开始 处 理 工作 完成 





处 理 时 间 
图 1-1 部 署 工作 的 前 置 时 间 和 处 理 时 间 
2. 常见 的 场景 : 为 期 数 月 的 部 署 前 置 时 间 
通常 ,部 署 前 置 时 间 动 辑 需 要 好 几 个 月 。 在 大 型 、 复 杂 的 企业 里 , 使 用 着 紧 耦 合 的 单 体 应 用 ， 


少 有 集成 测试 的 环境 , 测试 和 生产 环境 的 前 置 时 间 很 长 ,并且 严重 依赖 于 手动 测试 , 或 者 需要 各 
种 审批 流程 ， 情 况 更 是 如 此 。 这 种 情形 下 的 价值 流 看 起 来 如 图 1-2 所 示 。 
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和 ! 


图 1-2 某 部 署 前 置 时 间 为 期 三 个 多 月 的 技术 价值 流 

(来 源 : 2015 年 Damon Edwards 的 “DevOps Kaizen”) 

部 署 前 置 时 间 一 旦 变 长 , 那么 在 价值 流 的 每 个 阶段 ,几乎 都 需要 “ 填 坑 ”能 手 来 补救 。 通 常 ， 
很 可 能 是 在 项 目 结束 前 ， 将 开发 团队 的 变更 合并 到 一 起 后 ， 才 发 现 整个 系统 根本 无 法 正常 工作 ， 
有 时 甚至 会 出 现代 码 都 无 法 通过 编译 和 测试 的 情况 。 每 一 个 问题 可 能 都 需要 几 天 甚至 几 周 的 时 间 
来 定位 和 修复 ， 因 此 导致 了 极其 糟糕 的 客户 体验 。 


3. 我 们 的 目标 : 分 钟 级 别 的 部 署 前 置 时 间 


在 DevOps 的 理想 情况 下 ， 开 发 人 员 能 快速 、 持 续 地 获得 工作 反馈 ， 能 快速 和 独立 地 开发 、 
集成 和 验证 代码 ， 并 能 将 代码 部 署 到 生产 环境 中 〈 自己 部 署 或 者 他 人 部 署 )。 

我 们 可 以 通过 如 下 方式 达到 这 个 目标 : 向 版 本 控制 系统 中 持续 不 断 地 提交 小 批量 的 代码 变 
更 ， 并 对 代码 做 自动 化 测试 和 探索 测试 ， 然 后 再 将 它 部 署 到 生产 环境 中 。 这 样 ,我 们 就 能 对 代码 
变更 在 生产 环境 中 的 成 功 运 行 保 持 高 度 自信 ， 同 时 还 能 快速 地 发 现 并 修复 可 能 出 现 的 问题 。 

为 了 更 容易 地 实现 上 述 目 标 ， 还 需要 通过 模块 化 、 高 内 聚 、 低 耦合 的 方式 优化 架构 设计 ， 帮 
型 团队 自治 地 工作 。 这 样 即便 失败 了 ， 也 能 在 可 控 范 围 内 ， 而 不 至 于 对 全 局 产生 影响 。 
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通过 上 述 方式 ， 能 有 效 地 将 前 置 时 间 缩短 至 分 钟 级 别 ; 即便 在 最 坏 的 情况 下 ,也 不 会 超过 小 | 
时 级 别 。 其 价值 流 图 如 图 1-3 所 示 。 





10 分 钟 10 分 钟 5 分 钟 
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ee 自动 化 审批 
mm 路 手动 审批 
图 1-3 前 置 时 间 为 分 钟 级 别 的 技术 价值 流 


周期 时 间 总 计 : 25 分 钟 








1.2.2 ”关注 返工 指标 %C/A 


除了 前 置 时 间 和 处 理 时 间 外 , 技术 价值 流 中 的 第 三 个 关键 指标 是 完成 时 间 和 精确 的 总 花费 时 
间 的 百分比 ( %C/A )。 该 指标 反映 了 价值 流 中 的 每 个 步骤 的 输出 质量 。Karen Martin 和 Mike 
Osterling 描述 道 :“ 要 获取 %C/A， 可 以 询问 下 游客 户 他 们 有 百 分 之 多 少 的 时 间 收 到 了 “真正 有 用 








的 工作 ， 即 他 们 可 以 专心 做 有 用 的 工作 ， 而 不 必修 复 错误 信息 、 补 充 信息 ， 或 者 澄清 那些 本 该 
确定 的 信息 。” 


1.3 三 步 工 作法 : DevOps 的 基础 原则 
《凤凰 项 目 》 把 三 步 工作 法 作为 基础 的 原则 ， 并 由 此 衍生 出 了 DevOps 的 行为 和 模式 ( 见 图 1-4 )。 
(业务 ) (客户 ) 


Dev ee Ops 


Dev  。 多 Ops 


CC Sec > 


Dev ~ » Ops 


图 1-4 三 步 工 作法 
(来 源 : Gene Kim 在 IT Revolution Press 博客 上 发 布 的 “三 步 工作 法 : DevOps 的 基础 原则 ”， 访 问 于 2016 年 8 月 9 日 ， 
http://itrevolution.com/the-three-ways-principles-underpinning-devops/ ) 
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第 一 步 , 实现 开发 到 运 维 的 工作 快速 地 从 左 向 右 流 动 。 为 了 最 大 程度 地 优化 工作 流 ， 需 要 将 
工作 可 视 化 , 减 小 每 批 次 大 小 和 等 待 间隔 ,通过 内 建 质 量 杜绝 向 下 游 传递 缺陷 ,并 持续 地 优化 全 
局 目标 。 


通过 加 快 技术 价值 流 的 流速 , 缩短 满足 内 部 或 者 外 部 客户 需求 所 需 的 前 置 时 间 , 尤其 是 缩短 
代码 部 署 到 生产 环境 所 需 的 时 间 , 可 以 有 效 地 提高 工作 质量 和 产量 , 并 使 企业 具有 更 强 的 外 部 竞 
争 力 。 


相关 的 实践 包括 持续 构建 、 集 成 、 测 试 和 部 署 ， 按 需 进行 环境 搭建 ， 限 制 在 制品 数量 ,构建 
能 够 安全 地 实施 变更 的 系统 和 组 织 。 


第 二 步 ， 在 从 右 向 左 的 每 个 阶段 中 , 应 用 持续 、 快 速 的 工作 反馈 机 制 。 该 方法 通过 放大 反馈 
环 防 止 问题 复发 ， 并 能 缩短 问题 检测 周期 ， 实 现 快 速 修复 。 通 过 这 种 方式 ,我 们 能 从 源头 控制 质 
量 , 并 在 流程 中 租 入 相关 的 知识 。 这 样 不 仅 能 创造 出 更 安全 的 工作 系统 , 还 可 以 在 灾难 性 事故 发 
生前 就 检测 到 并 解决 它 。 


及 时 发 现 并 控制 这 些 问题 ， 直 到 拥有 有 效 的 对 策 ， 可 以 持续 地 缩短 反馈 周期 和 放大 反馈 环 ， 
是 所 有 现代 流程 优化 方法 的 一 个 核心 原则 ， 能 够 创造 出 组 织 学 习 与 改进 的 机 会 。 


第 三 步 ， 建 立 具 有 创意 和 高 可 信 度 的 企业 文化 ,支持 动态 的 、 严 格 的 、 科 学 的 实验 。 通 过 主 
动 地 承担 风险 ,不 但 能 从 成 功 中 学 习 ， 也 能 从 失败 中 学 习 。 通 过 持续 地 缩短 和 放大 反馈 环 ， 不 仅 
能 创造 更 安全 的 工作 系统 ， 也 能 承担 更 多 的 风险 ， 并 进行 试验 帮助 自己 比 竞 争 对 手 改进 得 更 快 ， 
从 而 在 市 场 竞争 中 战胜 他 们 。 


作为 第 三 步 的 一 部 分 ， 我 们 能 够 让 工作 系统 事半功倍 ， 将 局 部 优化 转化 为 全 局 优化 。 另 外 ， 
不 管 是 谁 参与 了 工作 ， 所 有 经 验 都 可 以 持续 地 积累 ， 组 织 里 的 人 都 可 以 相互 借鉴 彼此 的 经 验 和 
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1.4 小 结 


本 童 描述 了 价值 流 的 概念 ， 同 时 还 介绍 了 制造 业 价 值 流 和 技术 价值 流 中 的 一 个 重要 量度 指 
标 一 一 前 置 时 间 ， 最 后 介绍 了 三 步 工 作法 ( 文 撑 DevOps 的 原则 ) 的 基本 概念 。 

在 后 续 的 章节 中 , 我 们 将 更 详细 地 描述 三 步 工 作法 。 第 一 步 是 流动 原则 ,不管 是 在 制造 行业 
还 是 在 信息 技术 产业 , 它 都 聚焦 于 在 价值 交付 过 程 中 建立 快速 的 工作 流 。 关 于 快速 流动 的 更 多 实 
践 ， 将 会 在 本 书 的 第 三 部 分 详细 描述 。 
































第 一 步 : 流动 原则 








在 技术 价值 流 中 , 工作 通常 是 从 开发 人 员 流 向 运 维 人 员 , 也 就 是 业务 和 客户 之 间 的 所 有 职能 
部 门 。 本 章 要 描述 的 第 一 步 工作 法 ， 就 是 建立 从 开发 到 运 维 之 间 快 速 的 、 平 滑 的 、 能 向 客户 交付 
价值 的 工作 流 。 要 为 这 个 全 局 目标 进行 优化 ， 而 非 围 绕 一 系列 局 部 目标 ， 如 功能 开发 的 完成 度 、 
测试 中 问题 的 发 现 率 和 修正 率 、 运 维 维护 的 可 用 性 等 。 


通过 持续 加 强 工作 内 容 的 可 视 化 , 减 小 每 批 次 大 小 和 等 待 间隔 , 内 建 质量 以 防止 缺陷 向 下 游 
传递 , 从 而 增强 流动 性 。 通 过 加 速 技术 价值 流 的 流动 ， 可 以 缩短 满足 内 部 客户 和 外 部 客户 需求 的 
前 置 时 间 ， 进 一 步 提 高 工作 质量 ， 并 使 我 们 更 加 敏捷 ， 能 够 比 竞争 对 手 更 为 出 色 。 

我 们 的 目标 是 在 缩短 代码 从 变更 到 生产 环境 上 线 所 需 时 间 的 同时 ， 提 高 服务 的 质量 和 可 靠 
性 。 实际 上 , 我 们 可 以 在 制造 行业 中 找到 价值 流 应 用 的 相关 线索 ,帮助 我 们 将 精益 原则 应 用 到 技 
术 价 值 流 中 。 


























2.1 使 工作 可 见 


技术 行业 的 工作 内 容 是 不 可 见 的 , 这 是 其 与 制造 业 价值 流 相 比 的 一 个 显著 差异 。 相 对 于 工业 
产品 的 生产 过 程 而 言 ， 在 技术 价值 流 中 很 难 发 现 工作 过 程 的 阻塞 点 ， 例 如 ,在 哪里 受阻 了 ,在 哪 
个 环节 产生 了 积压 。 而 在 制造 业 的 价值 流 中 , 工作 在 不 同 工 作 中 心间 的 转移 通常 是 显而易见 并 且 
缓慢 的 ， 因 为 必须 真正 地 转移 库存 产品 。 


男 一 方面 , 技术 工作 的 流转 通过 单 击 一 次 鼠标 就 可 以 完成 , 壁 如 将 工 单 重新 指派 给 男 一 个 团 
队 。 由 于 点 击 的 操作 太 过 容易 ， 所 以 不 同 团队 可 能 会 因为 信息 不 完整 而 将 工作 “ 跑 来 踢 去 ”， 存 
在 的 问题 也 会 被 传递 到 下 游 工 序 , 而 这 些 问题 完全 是 不 易 察 觉 的 , 直到 无 法 按时 向 客户 交付 产品 ， 
或 者 应 用 程序 在 生产 环境 中 出 了 问题 。 

为 了 能 识别 工作 在 哪里 流动 、 排 队 或 停滞 ， 就 需要 将 工作 尽 可 能 地 可 视 化 。 可 视 化 工作 板 是 
一 种 较 好 的 工作 方式 ， 如 在 看 板 或 Sprint 计划 板 上 ， 使 用 纸 质 或 电子 卡片 将 各 项 工作 展示 出 来 。 
工作 通常 从 左 侧 发 起 ( 从 待 办 事项 中 拉 取 )， 然 后 从 一 个 工作 中 心 拉 取 到 下 一 个 工作 中 心 〈 用 列 
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表示 )， 最 后 到 达 工 作 板 的 最 右 侧 ， 而 这 一 列 也 通常 被 标记 为 “完成 ”或 “已 上 线 ”。 


通过 这 种 方式 ， 不 仅 能 将 工作 内 容 可 视 化 ， 还 能 有 效 地 管理 工作 ， 加 速 其 从 左 至 右 的 流动 。 
此 外 ， 还 可 以 通过 卡片 从 在 看 板 上 创建 到 移动 至 “完成 ”这 一 列 ， 度 量 出 工作 的 前 置 时 间 。 

理想 情况 下 ,看 板 应 该 覆盖 整个 价值 流 ; 仅 当 工作 到 达 看 板 最 右 侧 时 ， 才 能 算是 已 完成 ( 见 
图 2-1 )。 开 发 完成 某 个 功能 不 能 算是 “已 完成 "， 只 有 应 用 程序 在 生产 环境 里 成 功 地 运行 起 来 ， 
并 开始 为 客户 提供 价值 的 时 候 ， 才 能 算是 “已 完成 ”。 


,i i i 


I 开发 ! 运 维 ! 
EE ER 












































图 2-1 横 跨 需求 、 开 发 、 测 试 、 预 生产 和 生产 的 看 板 示例 ( 另 见 彩 插 ) 
(来 源 : David J. Andersen 和 Dominica DeGrandis 2012 年 的 工作 坊 培 训 材 料 “ITOps 的 看 板 ”) 








通过 将 每 个 工作 中 心 的 所 有 工作 都 放 进 队列 中 , 并 且 可 视 化 地 展示 出 来 , 利益 干系 人 更 容易 
从 全 局 目标 出 发 ， 确 定 各 项 工作 的 优先 级 。 这 样 ， 每 个 工作 中 心 都 能 采用 单 任务 的 处 理 方式 ， 从 
优先 级 最 高 的 任务 开始 ， 依 次 完成 所 有 工作 ， 以 增加 工作 中 心 的 吞吐 量 。 





2.2 ”限制 在 制品 数 


制造 业 的 日 常 工作 通常 是 由 定期 ( 如 每 天 、 每 周 ) 生成 的 生产 计划 决定 的 ， 根 据 客户 订单 、 
交 货 日 期 、 零 件 库存 等 条 件 ， 确 定 执行 哪些 任务 。 

但 技术 工作 通常 是 动态 的 一 一 尤其 是 存在 共享 服务 的 情况 下 , 团队 必须 要 同时 满足 很 多 利益 
干系 人 的 需求 , 这 导致 临时 安排 控制 了 日 常 工作 。 紧 急 的 工作 可 能 会 来 自 于 各 种 渠道 , 壁 如 工 单 
系统 、 宕 机 告警 、 电 子 邮 件 、 电 话 、 即 时 通信 的 消息 或 管理 层 决 定 的 事件 。 


生产 中 断 在 制造 业 里 很 显眼 ， 且 代价 极 高 ， 当 正 进 行 中 的 工作 夏 然 而 止 时 ,所 有 的 半成品 都 
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将 报废 ， 然 后 再 启动 一 批 新 作业 。 这 种 高 昂 的 代价 ， 让 人 们 不 希望 中 断 频繁 发 生 。 


但 是 技术 工作 者 很 容易 被 打 断 ， 因 为 对 所 有 人 而 言 ， 这 个 中 断 的 后 果 似 乎 是 不 可 见 的 ,即便 
它 对 生产 效率 的 影响 比 制造 业 更 其 。 例 如 , 将 一 个 工程 师 同 时 分 配 到 多 个 项 目 里 ， 他 不 得 不 在 多 
个 任务 、 认 知 规则 和 目标 之 间 来 回 切换 ， 付 出 重新 进入 角色 的 成 本 。 


研究 表明 ， 即 便 是 完成 简单 任务 ， 如 将 各 种 几何 形状 分 类 ， 当 同时 执行 多 个 任务 时 ,效率 也 
会 显著 降低 。 从 认 知 上 看 ,技术 价值 流 中 的 工作 ， 显 然 要 比分 类 几何 形状 复杂 得 多 ,所 以 多 任务 
会 导致 更 长 的 处 理 时 间 。 


当 使 用 看 板 管理 工作 时 , 可 以 限制 多 任务 的 出 现 , 例如 对 看 板 的 每 一 列 或 每 个 工作 中 心 设置 
在 制品 数量 的 限制 ， 并 把 卡片 数量 的 上 限 标记 在 每 一 列 上 。 


例如 ， 将 测试 工作 的 在 制品 数量 上 限 设置 为 3。 当 测试 队列 中 已 有 3 张 卡片 时 ， 除 非 某 张 卡 
片 完成 了 , 或 将 3 张 中 的 一 张 退回 到 前 一 个 队列 〈 左 侧 的 那 一 列 )， 和 否则 禁止 添加 新 卡片 。 另 外 ， 
在 把 一 项 工作 用 卡片 的 形式 显示 在 看 板 上 之 前 , 任何 与 之 相关 的 工作 都 不 能 开展 , 这 强调 了 任何 
工作 都 必须 可 视 化 。 


Dominica DeGrandis 是 在 DevOps 中 运用 看 板 的 专家 之 一 ， 他 指出 :“ 控 制 队列 的 长 度 ( 即 在 
制品 数 ) 是 一 个 非常 强大 的 管理 工具 , 因为 这 是 影响 前 置 时 间 的 重要 因素 之 一 一 一 对 于 大 多 数 的 
工作 条 目 而 言 ， 在 它们 完成 以 前 ， 其 实 并 无 法 预测 到 底 需 要 多 长 时 间 。 


通过 限制 在 制品 数 ， 还 能 更 容易 地 发 现 工作 中 的 阻碍 。 “例如 ， 当 限制 在 制品 时 ， 可 能 会 发 
现 居 然 没 什么 工作 可 干 的 ， 因 为 要 等 待 其 他 人 。 虽 然 进 行 一 项 新 工作 ( 即 “ 干 点 什么 总 比 什么 都 
不 干 强 ”) 可 能 很 诱 人 , 但 此 时 更 好 的 做 法 是 查 明 导 致 等 待 的 原因 ， 并 协助 解决 那个 等 待 的 问题 。 
实际 上 , 糟糕 的 多 任务 处 理发 生 的 原因 , 通常 是 同时 给 一 个 人 分 配 多 个 项 目 , 造成 了 很 多 优先 级 
冲突 问题 。 


正如 《看 板 方法 : 科技 企业 渐进 变革 成 功 之 道 》 的 作者 David J. Anderson 所 说 :“ 停 止 开 始 ， 
开始 结 












































































































































2.3 减 小 批量 大 小 


建立 平滑 而 快速 的 工作 流 的 另 一 个 关键 点 ,是 通过 小 批量 的 模式 完成 工作 。 在 精益 革命 以 前 ， 
大 批量 (或 规模 ) 生产 的 方式 在 制造 业 司空 见 惯 , 在 作业 配置 或 作业 之 间 的 切换 相当 耗 时 且 昂 贵 
时 尤其 如 此 。 例 如 , 在 生产 大 型 汽车 时 ， 需 要 将 巨大 而 沉重 的 模具 放 到 金属 冲压 机 上 ， 这 个 过 程 
可 能 需要 好 几 天 时 间 。 鉴于 成 本 如 此 高 昂 , 通常 会 用 大 批量 作业 , 一 次 冲压 出 尽 可 能 多 的 车 身 板 ， 
从 而 减少 模具 的 更 换 次 数 。 







































































大 野 耐 一 把 限制 在 制品 比喻 为 给 水 库 排水 来 识别 出 阻碍 快速 流动 的 所 有 问题 。 
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然而 , 大 批量 导致 在 制品 的 暴涨 , 并 在 整个 制造 工厂 中 产生 流量 级 联 的 变化 。 最 后 导致 前 置 
时 间 长 、 产 品质 量 差 的 后 果 如 果 发 现 了 一 个 车 身 板 有 问题 ， 整 个 批 次 都 必须 报废 。 

在 精益 中 , 一 个 重要 的 经 验 是 : 为 了 缩短 前 置 时 间 和 提高 交付 物质 量 , 应 当 持 续 不 断 地 追求 
小 批量 模式 。 理 论 上 ， 最 小 的 批量 是 单 件 流 ， 也 就 是 每 次 操作 只 执行 一 个 单位 产品 的 处 理 。?” 

关于 小 批量 和 大 批量 之 间 的 巨大 差异 ，James P Womack 和 DanielT. Jones 在 《精益 思想 》 一 
书 里 ， 通 过 “模拟 邮寄 宣传 册 ” 的 经 典 案例 进行 了 说 明 。 

这 个 例子 假设 要 邮寄 出 10 本 宣传 册 。 邮 寄 之 前 ， 每 本 宣传 朋 都 必须 经 历 4 个 步骤 : 折 和 县 ， 
插入 信封 ， 给 信封 封口 ， 盖 截 。 

如 果 采 用 大 批量 策略 ( 即 “ 大 规模 生产 ”)， 我 们 会 对 每 本 宣传 册 按 顺序 执行 上 述 4 个 步骤 。 
换 句 话说 ， 首 先 要 将 10 张 纸 全 都 折 羞 完 ， 再 将 每 张 纸 分 别 插入 信封 ,然后 给 所 有 的 信封 封口 ， 
最 后 全 部 盖 章 。 

另 一 种 方式 是 小 批量 策略 ( 即 “ 单 件 流 ”)， 即 对 每 本 宣传 册 顺 序 地 执行 所 需 的 所 有 步骤 ， 然 
后 再 开始 处 理 下 一 本 宣传 册 。 换 名 话说 ， 先 折 友 一 张 纸 ， 将 其 插入 信封 ， 再 给 信封 封口 ， 之 后 盖 
章 ; 然后 ， 取 下 一 张 纸 ， 并 重复 以 上 过 程 。 

采用 大 批量 和 小 批量 策略 之 间 的 差异 是 巨大 的 ( 见 图 2-2 )。 假 设 对 所 有 10 个 信封 都 必须 采 
取 如 上 4 个 步骤 ， 并 且 每 一 步 操 作 需 要 10 秒 。 如 果 使 用 每 批 5 个 的 大 批量 策略 处 理 ， 则 完成 第 
一 个 盖 惟 的 信封 需要 用 310 秒 。?” 

大 批量 
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IL 第 一 个 产品 就 络 
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‖L 第 一 个 产品 就 结 
图 2-2 ”模拟 “信封 游戏 ”( 折 县 、 搬 和 入、 封口 、 盖 章 ) ( 另 见 彩 搬 ) 


(来 源 : Stefan Luyten 的 文章 “ 单 件 流 : 为 什么 大 批量 生产 不 是 最 有 效 的 处 理 “工作 ”的 方式 "， 
https://medium.com/@stefanluyten/single-piece-flow-5d2c2bec845b#.907sn74ns，2014 年 8 月 8 日 ) 
































@ 也 称 为 “1 的 批量 大 小 ”或 “1x1 流量 ”"， 该 术语 表示 批量 大 小 和 在 制品 都 限制 为 1。 
@ 这 里 是 “5x1 流量 ”， 即 批量 大 小 为 5， 在 制品 为 1。 由 于 这 里 是 单 人 模拟 的 场景 并且 一 双手 同时 只 能 加 工 一 个 

信封 ， 所 以 在 制品 数量 也 只 能 为 1。310 秒 =(5x10+5x10)+(5x10+5x10)+(5x10+5x10)+10。 
一 一 译 者 注 
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更 糟糕 的 是 , 假设 我 们 在 信封 封口 操作 中 发 现 第 一 步 的 折 释 做 错 了 ,在 这 种 情况 下 ， 我们 能 
发 现 错误 的 最 早 时 间 是 在 200 秒 之 后 ， 那 样 我 们 就 不 得 不 将 这 个 批 次 的 10 个 小 册子 再 重新 折 和 三 
并 装 回 信封 中 。 


相 比 之 下 ， 使 用 小 批量 策略 时 ， 仅 用 40 秒 就 完成 了 第 一 封 盖 蕉 信 的 生产 ， 比 大 批量 策略 快 
8 倍 。 如 果 第 一 步 出 错 了 ， 只 需要 返工 一 本 小 册子 。 小 批量 生产 的 在 制品 更 少 ， 前 置 时 间 更 短 ， 
错误 检测 更 快 ， 返 工 量 更 少 。 


对 于 技术 价值 流 而 言 , 大 批量 的 副作用 和 制造 业 一 样 。 我 们 制订 了 软件 发 布 的 年 度 计 划 ，， 
一 整 年 的 开发 成 果 一 次 性 地 都 发 布 到 生产 环境 中 。 这 种 大 批量 的 发 布 会 造成 突 发 的 、 大 量 的 在 秆 
品 ， 导 致 所 有 下 游 工 作 中 心 " 大 规模 的 混乱 ， 其 结果 是 流动 性 变 差 ， 质 量 下 降 。 这 和 我 们 痔 述 的 
经 验 是 类 似 的 ， 即 对 生产 环境 的 变更 越 大 ， 问 题 的 定位 和 修复 就 越 困 难 ， 修 复 时 间 也 就 越 长 。 


Eric Ries 在 “创业 经 验 教训 ”( Startup Lessons Learned ) 这 篇 文章 中 说 :“ 在 开发 (或 DevOps ) 
流程 中 , 批量 大 小 是 工作 产品 在 不 同 阶段 间 移 动 的 单位 数 。 对 于 软件 而 言 , 最 容易 看 到 的 是 代码 。 
当 工 程 师 签 入 代码 时 ,他 们 就 批量 地 处 理 了 一 定数 量 的 工作 。 有 许多 控制 批 处 理 的 方式 ， 从 持续 
部 署 要 求 的 小 批量 , 到 相对 传统 的 基于 分 支 的 大 型 模块 开发 , 都 是 聚合 多 个 开发 人 员 几 周 或 几 个 
月 所 工作 的 代码 。” 


在 技术 价值 流 中 ， 单 件 流 可 以 通过 持续 部 署 实现 。“ 其 中 ， 每 一 个 提交 到 版 本 控制 系统 的 变 
更 都 会 集成 、 测 试 并 部 署 到 生产 环境 。 具 体 的 实现 方法 ， 将 在 第 四 部 分 中 进行 详细 描述 。 
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2.4 ”减少 交接 次 数 


在 技术 价值 流 中 , 如 果 部 署 的 前 置 时 间 以 月 作为 周期 单位 , 通常 是 因为 要 将 版 本 控制 系统 中 
的 代码 部 署 到 生产 环境 需要 数 百 甚 至 数 千 个 操作 。 实 际 上 ,代码 在 价值 流 流 转 的 过 程 中 ,需要 各 
个 不 同 部 门 的 协同 才能 完成 相关 任务 ， 包括 功能 测试 、 集 成 测试 、 环 境 搭 建 、 配 置 服务 器 、 存 储 
管理 、 网 络 、 负 和 载 均衡 设备 和 信息 安全 加 固 等 。 

一 项 工作 在 团队 之 间 交 接 时 ,需要 大 量 的 沟通 一 一 请 求 、 委 派 、 通 知 、 协 调 ， 而且 经 常 需要 
排 优先 级 、 调 度 、 消 除 冲突 、 测 试 和 验证 。 这 些 工 作 可 能 还 需要 使 用 不 同 的 工 单 系统 或 项 目 管理 
系统 ,编写 技术 规范 文档 ， 用 会 议 、 电 子 邮 件 或 电话 的 形式 进行 沟通 ,可 能 还 涉及 文件 共享 服务 
器 、FTP 服务 器 和 Wiki 页 面 的 使 用 。 


实际 上 ， 上述 流 程 中 的 每 个 环节 都 有 其 潜在 的 队列 ， 当 依赖 不 同 价值 流 共享 的 资源 ( 例如 集 










































































GD 多 是 指数 据 中 心 的 运 维 部 门 。 一 一 译 者 注 
@) 本 书 强 调 的 是 端 到 端的 价值 流 ， 只 有 在 部 署 之 后 ， 把 价值 交付 给 客户 了 ， 一 项 工作 才 算 完成 ， 因 此 是 持续 部 署 。 
一 一 译 者 注 






































中 式 操作 ) 时 ， 就 会 出 现 工作 等 待 。 这 些 请 求 的 前 置 时 间 通 常会 很 长 ， 从 而 导致 那些 本 应 按期 操 
作 完 的 工作 持续 地 延期 。 


即使 在 最 好 的 情况 下 ,有些 信 息 或 者 知识 也 不 可 避免 地 在 交接 过 程 中 丢失 。 经 历 了 多 次 的 交 
接 后 , 问题 的 上 下 文 和 所 支持 的 组 织 目 标 可 能 会 完全 丢失 。 例如， 服务 絮 管 理 员 可 能 会 收 到 一 个 
关于 创建 用 户 账号 的 新 工 单 , 但 是 他 并 不 知道 是 什么 应 用 程序 或 服务 会 使 用 这 个 账号 , 为 什么 需 
要 新 建 账号 ， 其 他 的 依赖 关系 是 什么 ,或 者 这 到 底 是 不 是 一 个 重复 劳动 。 

为 了 减少 这 类 问题 的 出 现 , 要 么 努力 减少 交接 次 数 , 要么 用 自动 化 方式 执行 大 部 分 操作 , 要 
么 重新 调整 组 织 结构 ， 让 团队 不 必 依赖 其 他 人 就 可 以 独立 地 为 客户 提供 价值 。 因 此 ， 要 通过 减少 
队列 中 的 等 待 时 间 以 及 非 增值 工作 的 时 间 来 增加 流动 性 ( 见 附录 4 )。 
































2.5 ”持续 识别 和 改善 约束 点 


为 了 缩短 前 置 时 间 、 提 高 吞吐 量 , 我们 需要 不 断 地 识别 系统 中 的 约束 点 ， 提 高 工作 产能 。 
Goldratt 博士 在 Beyond te Goal 一 书 中 提 到 :“ 在 任何 价值 流 中 ， 总 是 有 一 个 流动 方向 、 一 个 约 
束 点 ， 任 何不 针对 此 约束 点 而 做 的 优化 都 是 假象 。 ”如果 我 们 优化 约束 点 之 前 的 那个 工作 中 心 ， 
那么 工作 必 将 在 这 个 约束 点 上 更 快 地 积压 起 来 。 


反之 ,如 果 优 化 约束 点 之 后 的 工作 中 心 , 那么 它 还 会 处 于 饥饿 状态 ,等 待 约 束 点 处 工作 的 结 
束 。 对 于 这 种 现象 ，Goldratt 博士 给 出 了 解决 方案 ， 定 义 了 如 下 “5$ 个 关键 步骤”: 


口 识别 系统 的 约束 点 ; 

口 决定 如 何 利用 这 个 系统 约束 点 ; 

口 基于 上 述 决定 ， 考 虑 全 局 工作 ; 

口 改善 系统 的 约束 点 ; 

口 如 果 约 束 点 已 经 突破 了 ， 请 回 到 第 一 步 ， 但 要 杜绝 惯性 导致 的 系统 约束 。 


在 DevOps 的 转型 过 程 中 ， 如 果 和 希望 前 置 时 间 从 月 或 季度 缩短 为 几 分 钟 ， 那 么 一 般 需 要 依次 
优化 下 面 的 约束 点 。 


口 环境 搭建 : 如 果 生 产 或 测试 环境 的 搭建 总 是 需要 数 周 或 数 月 ， 则 按 需 部 署 就 无 法 实现 。 
解决 措施 是 按 需 建立 完全 自 服务 的 环境 ， 保 证 团队 在 需要 环境 的 时 候 ， 能 通过 自动 化 方 
式 创 建 。 

口 代码 部 署 : 如 果 代码 的 部 署 需要 花 数 周 或 更 长 时 间 ( 壁 如 每 次 部 署 需 要 1300 个 手动 、 易 
出 错 的 操作 ， 涉 及 多 达 300 名 工程 师 )， 那 么 就 无 法 按 需 部 署 。 解 决 措施 是 尽 可 能 自动 化 
部 署 的 过 程 ， 以 便 让 任何 开发 人 员 都 可 以 按 需 自动 化 地 部 署 。 

口 测试 的 准备 和 执行 : 如 果 每 次 代码 部 署 都 需要 两 周 的 时 间 来 完成 测试 环境 的 准备 和 数据 
集 的 配置 ， 手 动 执行 所 有 的 回归 测试 还 需要 男 外 四 周 时 间 ， 那 么 就 无 法 实现 按 需 部 署 。 












































































































































2.6 消除 价值 流 中 的 困境 和 浪费 15 














解决 措施 是 实现 自动 化 测试 ， 这样 才能 在 安全 、 并 行 地 执行 部 署 的 同时 ， 使 测试 的 速度 
能 跟 上 代码 开发 的 速度 。 

口 紧密 耦合 的 架构 : 如 果 架 构 是 紧密 耦合 的 ， 那 也 无 法 实现 按 需 部 署 ， 因 为 每 次 要 做 代码 
变更 时 ， 工 程 师 都 不 得 不 从 变更 评审 委员 会 里 获得 执行 变更 的 许可 。 解 决 措施 是 创建 松 
散 耦 合 的 架构 ， 这 样 开 发 人 员 才 能 安全 、 自 主 地 进行 变更 ， 提 高 生产 力 。 


如 果 能 突破 以 上 的 约束 点 , 那么 接 下 来 的 约束 有 可 能 是 开发 部 门 或 产品 经 理 。 因 为 我 们 的 目 
标 是 让 小 型 开发 团队 可 以 独立 、 快 速 、 可 靠 地 开发 、 测 试 和 部 署 ， 并 持续 为 客户 创造 价值 ， 所 以 
这 些 环节 应 该 是 约束 点 集中 的 所 在 。 对 于 高 绩效 者 来 说 ， 不 管 工 程 师 是 处 于 开发 、QA、 运 维 还 
是 信息 安全 岗位 ， 他 们 的 目标 都 是 尽量 提高 生产 力 。 


当 约 束 点 出 现在 开发 阶段 时 , 我 们 将 仅 受 限于 有 多 少 创意 精良 的 业务 假设 , 以 及 能 否 开发 出 
必要 的 代码 来 用 真实 客户 来 测试 这 些 假设 。 

以 上 所 述 的 约束 点 在 DevOps 转型 中 是 相当 普遍 的 一 一 在 价值 流 中 识别 约束 点 的 技术 ,诸如 
如 何 使 用 值 流 映射 和 度量 的 方法 ， 以 后 会 详细 描述 。 




























































































2.6 ”消除 价值 流 中 的 困境 和 浪费 


丰田 生产 系统 的 先驱 之 一 新 乡 重 夫 认 为 , 浪费 是 业务 兴盛 的 最 大 威胁 一 一 精益 中 对 浪费 的 常 
用 定义 是 “使 用 了 超出 客户 需求 和 他 们 愿意 支付 范围 的 任何 材料 或 资源 的 行为 "。 他 定义 了 制造 
业 里 7 种 主要 的 浪费 类 型 : 库存 、 过 量 生 产 、 过 度 加 工 、 运 输 、 等 待 、 移 动 和 缺陷 。 

现代 化 的 精益 理念 解释 道 :“ 消 除 浪费 ”会 有 点 贬义 和 不 近 人 和 情 的 意味 ,我 们 的 目标 其 实 是 
想 通 过 持续 的 学 习 来 破除 日 常 工作 中 的 困境 ,从 而 更 好 地 实现 组 织 的 目标 ,在 本 书 的 后 续 内 容 里 ， 
“浪费 ”一 词 意味 着 这 个 更 具 现 代 感 的 定义 ， 因 为 它 更 符合 DevOps 所 期 望 的 理想 境界 。 






































Mary 和 Tom Poppendieck 在 Implementing Lean Software Development: From Concept to Cash 
一 书 中 描述 道 : 浪费 和 困境 是 软件 开发 过 程 中 导致 交付 延迟 的 主要 因素 。 


下 面 是 该 书 中 描述 的 关于 浪费 和 困境 的 部 分 类 型 。 


口 半成品 : 它 指 的 是 价值 流 里 任何 还 没有 彻底 完成 的 工作 〈 例如， 需求 文档 或 尚未 审核 的 
变更 单 )、 处 于 队列 中 的 工作 ( 如 等 待 QA 审核 或 服务 器 管理 员 审 核 的 工 单 )。 部 分 完成 的 
工作 会 逐渐 地 过 期 ， 随 着 时 间 的 推移 最 终 失 去 了 价值 。 

口 额外 工序 : 在 交付 过 程 中 执行 的 、 并 未 给 客户 增值 的 额外 工作 ， 可 能 包括 那些 在 下 游 工 
作 中 心 从 没 使 用 过 的 文档 ， 或 是 对 输出 结果 做 出 的 并 不 增值 的 评审 或 审批 。 额 外 工序 不 
仅 增 加 了 处 理 的 工作 量 ， 还 增加 了 前 置 时 间 。 









































口 额外 功能 : 在 交付 过 程 中 构建 的 那些 组 织 或 客户 完全 不 需要 的 功能 ( 如 “镀金 ”")。 客 

外 功能 增加 了 功能 测试 和 管理 的 复杂 度 和 工作 量 。 

口 任务 切换 : 将 人 员 分 配 到 多 个 项 目 和 价值 流 里 后 ， 他 们 需要 进行 上 下 文 切换 ， 并 管理 工 

作 之 间 的 依赖 关系 ， 这 会 在 价值 流 中 耗费 额外 的 工作 量 和 时 间 。 

口 等 待 : 由 于 资源 的 竞争 而 在 工作 之 间 产 生 了 等 待 ， 这 将 增加 周期 时 间 ， 延 迟 了 向 客户 交 

付 价值 。 

口 移动 : 信息 或 数据 在 工作 中 心 之 间 移 动 的 工作 量 。 例 如 ， 在 一 个 需要 频繁 沟通 的 项 目 里 ， 
团队 成 员 实际 上 不 在 一 起 办 公 ， 无 法 坐 在 一 起 紧密 协作 ， 这 时 人 员 移 动 的 浪费 就 产生 了 。 
另外 ， 工 作 交 接 也 会 产生 移动 的 浪费 ， 需 要 额外 的 沟通 来 澄清 所 有 歧义 的 部 分 。 

口 缺陷 : 由 于 信息 、 材 料 或 产品 的 错误 、 残 缺 或 模糊 ， 而 需要 一 定 的 工作 量 来 确认 。 缺 陷 

的 产生 和 被 检测 出 来 的 时 间 间 隔 越 长 ， 解 决 问题 就 越 困 难 。 

口 非 标准 或 手动 操作 : 需要 依赖 其 他 人 的 非 标准 的 或 手动 的 工作 ， 例 如 使 用 不 能 自动 化 反 
复 重 建 的 服务 器 、 测 试 环境 和 配置 。 理 想 情况 下 ， 任 何 依赖 运 维 团队 手动 完成 的 操作 ， 
都 应 该 配置 成 自动 化 的 、 按 需 提供 的 ,或 者 是 自助 服务 。 

口 填 坑 侠 : 为 了 实现 组 织 的 目标 ,不 得 不 把 有 些 人 和 团队 置 于 不 太 合理 的 处 境 ， 这 甚至 会 

成 为 他 们 的 家 常 便 饭 ( 如 半夜 两 点 生产 环境 出 现 事 故 ， 连 夜 给 软件 版 本 提交 了 上 百 个 工 

单 > © 


我 们 的 目标 是 将 这 些 浪费 和 困境 ( 任何 需要 填 坑 侠 的 场合 ) 都 可 视 化 ， 并 系统 地 进行 改进 ， 



































减轻 或 消除 这 些 负 担 ， 从 而 实现 快速 流动 的 目标 。 


2.7 小 结 


提升 技术 价值 流 的 流动 性 对 实施 DevOps 来 说 至 关 重 要 。 为 此 ,我 们 需要 将 工作 可 视 化 ， 限 





制 在 制品 数 ,， 减 小 批量 大 小 ,减少 交接 次 数 ， 持 续 地 识别 和 改进 约束 点 ， 以 及 消除 日 常 工作 中 的 
困境 。 


第 四 部 分 将 详细 描述 在 DevOps 价值 流 中 实现 快速 流动 的 具体 实践 。 下 一 章 将 描述 第 二 步 工 


作法 一 一 反馈 原则 。 














QD IT 项 目 中 无 用 的 面子 工程 和 功能 。 译 者 注 
@) 虽然 填 坑 侠 没有 包含 在 Poppendieck 所 说 的 浪费 类 型 中 ， 但 我 列 在 这 里 是 由 于 这 种 情况 很 普遍 ， 特 别 是 在 运 维 共 
享 服务 的 情况 下 。 









































第 二 步 : 反馈 原则 











第 一 步 工作 法 描述 的 原则 , 使 得 工作 能 够 在 价值 流 中 从 左 向 右 快速 地 流动 。 第 二 步 工作 法 描 
述 的 原则 , 则 使 得 在 从 右 向 左 的 每 个 阶段 中 能 够 快速 、 持 续 地 获得 工作 反馈 。 我 们 的 目标 是 建立 
安全 和 可 靠 的 工作 系统 。 


这 一 点 对 于 复杂 的 系统 尤其 重要 , 在 这 种 情况 下 , 发 现 和 纠正 错误 的 最 早 时 机 通常 是 灾难 性 
事件 发 生 时 ,例如 制造 业 工人 在 工作 过 程 中 受伤 或 核反应 堆 的 堆 坊 熔 毁 。 


在 技术 行业 ， 我 们 的 工作 几乎 都 发 生 在 灾难 性 后 果 如 影 随 形 的 复杂 系统 里 。 和 制造 业 相 似 ， 
通常 只 有 在 发 生 重大 故障 的 时 候 , 才能 发 现 问题 所 在 , 例如 遇 到 大 规模 用 户 服务 中 断 , 或 安全 漏 
洞 导致 客户 数据 泄露 。 


通过 在 整个 价值 流 和 组 织 中 建立 快速 、 频 繁 、 高 质量 的 信息 流 , 包括 反馈 和 前 馈 回路 ， 可 以 
让 系统 更 安全 。 这 样 ， 就 可 以 在 规模 较 小 、 修 复 成 本 较 低 的 情况 下 发 现 并 修复 问题 ,在 灾难 发 生 
es 并 创造 出 组 织 性 学 习 氛 围 。 同 时 ,我 们 应 该 把 失败 和 事故 的 发 生 视 为 宝贵 的 学 习 机 

， 而 不 是 惩罚 和 责备 的 理由 。 为 了 实现 上 述 目 标 , 我 们 先 探 索 复杂 系统 的 本 质 ， 以 及 怎样 才能 
> 更 安全 。 




































































3.1 在 复杂 系统 中 安全 地 工作 


复杂 系统 的 一 个 重要 特征 是 ， 无 法 将 系统 视 为 一 个 整体 ， 去 理解 各 个 部 分 是 如 何 组 合 在 一 
起 的 。 复杂 系统 的 组 件 之 间 通 常 是 紧 看 合 且 紧密 关联 的 , 不 能 仅仅 依据 组 件 的 行为 来 解释 系统 的 
行为 。 

Charles Perrow 博士 研究 了 三 里 岛 核 事故 ， 他 发 现 没 有 人 能 了 解 核 反应 堆 在 所 有 情况 下 的 行 
为 ， 以 及 在 何 种 情况 下 会 发 生 故 障 。 当 核反应 堆 的 一 个 组 件 出 现 故 障 时 ,很 难 将 其 与 其 他 组 件 隔 
离 ， 以 不 可 预测 的 方式 快速 地 流 过 阻力 最 小 的 路 径 。 


Sidney Dekker 博士 提出 了 一 些 关 于 安全 的 重要 元 素 ， 他 发 现 了 复杂 系统 的 另 一 个 特点 : 相 
同 的 事情 做 两 次 ， 结 果 未 必 相 同 。 也 正 是 因为 这 个 特点 ， 即 便 施 行 了 有 价值 的 静态 检查 和 最 佳 实 
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践 ， 还 是 不 足以 防止 灾难 发 生 ( 见 附录 5 )。 


复杂 系统 中 的 故障 是 存在 且 不 可 避免 的 。 因 此 , 无 论 在 制造 业 还 是 信息 技术 行业 , 我 们 都 必 
须 设计 出 一 个 安全 的 工作 系统 ,让 员工 能 无 所 县 惧 地 开展 工作 ,确保 早 在 灾难 性 后 果 (〈 例 如 人 员 
伤害 、 产 品 缺 陷 或 负面 的 客户 影响 ) 发 生 之 前 ， 能 快速 检测 出 错误 。 


Steven Spear 博士 在 他 的 哈佛 商学 院 博士 论文 中 揭示 了 丰田 生产 系统 背后 的 因果 机 制 。 他 认 
为, 我 们 可 能 无 法 设计 出 绝对 安全 的 系统 ,但 是 可 以 通过 采取 以 下 4 项 措施 让 复杂 系统 更 安全 地 
下 作 s 


口 管理 复杂 的 工作 ， 从 中 识别 出 设计 和 操作 的 问题 ; 
口 群策群力 解决 问题 ， 从 而 快速 地 构建 新 知识 ; 
口 在 整个 组 织 中 ， 将 区 域 性 的 新 知识 应 用 到 全 局 范围 ; 
口 领导 者 要 持续 培养 有 以 上 才能 的 人 。 

要 在 复杂 系统 中 安全 地 工作 ,必须 具备 上 述 4 种 能 力 。 接 下 来 ,我 们 将 描述 前 两 种 能 力 及 它 
们 的 重要 性 ,同时 还 会 探讨 其 他 领域 是 如 何 实现 这 些 能 力 的 ,以 及 如 何在 技术 价值 流 中 实现 它们 。 
第 三 项 和 第 四 项 能 力 会 在 第 4 章 中 描述 。 
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3.2 ”及 时 发 现 问题 


在 安全 的 工作 系统 中 , 我 们 要 不 断 地 对 设计 和 假设 进行 验证 。 有 目标 是 更 早 、 更 快 、 以 尽 可 能 
低 的 成 本 、 从 尽 可 能 多 的 维度 增加 系统 的 信息 流 ， 并 尽 可 能 清晰 地 确定 问题 的 前 因 后 果 。 能 
排除 的 假设 越 多 , 定位 和 解决 问题 的 速度 就 越 快 ， 从 而 提高 我 们 的 顺应 力 、 敏 捷 性 以 及 学 习 和 创 
新 能 力 。 


我 们 通过 在 工作 系统 中 建立 反馈 和 前 馈 回 路 的 方式 实现 这 一 点 。Peter Senge 博士 在 《第 五 项 
修炼 : 学 习 型 组 织 的 艺术 与 实践 》 一 书 中 ,描述 了 反馈 回路 是 学 习 型 组 织 和 系统 思维 的 重要 组 成 
部 分 。 有 反馈 和 前 馈 回 路 能 让 系统 内 各 部 件 之 间 的 关系 增强 或 抵消 。 


在 制造 业 ， 如 果 缺 乏 有 效 的 反馈 机 制 ,往往 会 酿 成 重大 质量 和 安全 问题 。 有 这 样 一 个 典型 的 
案例 : 通用 汽车 的 弗 里 蒙特 制造 广 既 没有 有 效 的 流程 来 检测 装配 过 程 中 的 问题 , 也 没有 明确 的 步 
又 来 解决 问题 。 结 果 导 致 了 各 种 问题 ， 比 如 发 动机 倒置 ,汽车 缺少 方向 盘 或 轮胎 ,甚至 是 由 于 根 
本 无 法 启动 ， 不 得 不 把 汽车 拖 出 装配 流水 线 。 


相 比 之 下 , 在 高 绩效 的 制造 业 运营 中 ,整个 价值 流 里 存在 着 快速 、 频繁 和 高 质量 的 信息 流 
每 个 工序 的 操作 都 会 被 度量 和 监控 , 任何 缺陷 或 严重 偏差 都 能 被 快速 发 现 和 处 理 。 这 些 是 保证 质 











































































































G) Spear 博士 扩展 了 他 的 著作 ， 并 介绍 了 一 些 长 期 保持 成 功 的 企业 ， 壁 如 让 
动力 推进 计划 。 














供应 商 网 络 、 美 铝 以 及 美国 海军 的 核 
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量 、 安 全 和 持续 学 习 与 改进 的 基础 。 


在 技术 价值 流 中 , 由 于 缺少 快速 反馈 机 制 , 我们 经 常会 得 到 糟糕 的 工作 结果 。 例 如 , 在 瀑布 
型 软件 项 目 中 ， 代 码 的 开发 可 能 花 上 一 整 年 ， 在 开始 测试 之 前 〈 甚 至 在 向 客户 发 布 软件 前 )， 我 
们 得 不 到 任何 质量 反馈 。 在 反馈 稀少 旦 滞后 的 情况 下 ， 工 作 结果 是 很 难 达 到 预期 的 。 


相反 ， 我 们 的 目标 应 该 是 在 技术 价值 流 的 每 个 阶段 〈 包 括 产品 管理 、 开 发 、QA、 信 息 安全 
和 运 维 )， 在 所 有 工作 执行 的 过 程 中 ， 建 立 快速 的 反馈 和 前 馈 回 路 。 这 包括 创建 自动 化 的 构建 、 
集成 和 测试 过 程 ， 以 便 尽早 检测 出 那些 可 能 导致 缺陷 的 代码 变更 。 


我 们 还 要 建立 全 方位 的 监控 系统 ,监控 服务 组 件 在 生产 环境 中 的 运行 状态 ,以便 快速 探测 到 
服务 的 意外 情况 。 监 控 系 统 还 能 帮助 我 们 度量 是 否 偏离 了 预期 目标 , 并 将 监控 结果 辐射 到 整个 价 
值 流 中 ， 这 样 就 能 看 到 我 们 的 行为 是 如 何 影响 系统 里 的 其 他 部 分 的 。 


反馈 回路 不 但 能 让 问题 的 快速 探测 和 修复 成 为 可 能 ， 而 且 还 能 告诉 我 们 如 何 防 止 问题 复 发 。 
这 样 做 不 但 提高 了 工作 系统 的 质量 和 安全 性 ， 还 创造 了 组 织 性 知识 。 


Pivotal 软件 公司 工程 副 总 裁 、 《探索 吧 ! 深入 理解 探索 式 软件 测试 》 一 书 的 作者 Elisabeth 
Hendrickson 说 :“ 在 我 负责 质量 验证 的 时 候 ， 我 将 自己 的 工作 描述 为 “建立 反馈 回路 " 。 反 馈 至 
关 重 要 , 因为 它 是 我 们 工作 的 向 导 。 我 们 必须 不 断 地 验证 目标 , 验证 实施 是 否 满足 了 客户 的 需求 ， 
而 测试 仅仅 是 一 种 反馈 。” 



























































3.3 群策群力， 战胜 问题 获取 新 知 


显然 , 仅仅 检测 出 意外 的 发 生 是 远 远 不 够 的 。 一旦 问题 出 现 了 ,我 们 还 必须 群策群力 ， 发动 
所 有 相关 的 人 员 解 决 问题 。 


Spear 博士 认为 ， 群 策 群 力 的 目的 是 遏制 住 问 题 ， 防 止 蔓延 ， 然 后 定位 和 处 理 问题 ， 避 免 复 
发 。 他 说 :“ 这 样 做 可 以 让 所 有 参与 者 都 得 到 更 深入 的 知识 ,理解 如 何 管理 系统 ， 把 无 法 规避 的 、 
早期 的 无 知 阶段 变 成 学 习 的 过 程 。 


这 个 原则 的 典范 是 丰田 的 “ 安 灯 绳 ”。 在 丰田 制造 工厂 里 ， 每 个 工作 中 心 都 是 一 条 绳索 ， 
个 工人 和 经 理 都 受过 培训 ,他 们 会 在 出 现 问题 时 拉 下 安 灯 绳 ， 比 如 ， 当 零件 有 缺陷 时 ， 当 需要 的 
零件 用 光 时 ， 或 者 是 加 工时 间 比 文档 中 描述 的 长 时 。” 

在 安 灯 强 被 拉动 时 , 团队 领导 就 能 第 一 时 间 得 知 并 立即 着 手 解 决 问题 。 如果 问 题 不 能 在 指定 
的 时 间 (如 55 秒 ) 内 解决 ， 就 会 停 掉 整 个 生产 线 ， 调 动 整个 企业 一 起 协作 ， 直 到 成 功 地 找 出 解 
决 问题 的 对 策 。 






























































@ 丰田 已 经 在 一 些 工 三 里 使 用 “ 安 灯 ”按键 。 
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我 们 不 应 绕 开 问题 ， 也 不 应 该 用 “有 更 多 时 间 时 再 解决 ”来 扩 塞 ， 而 要 立刻 群策群力 修复 问 
题 一 一 这 与 通用 汽车 弗 里 蒙特 工厂 的 做 法 几乎 完全 相反 。 和 群策群力 的 原因 如 下 : 


口 防止 把 问题 带 入 下 游 的 处 理 环节 ， 和 否则 不 但 修复 的 成 本 和 工作 量 会 呈 指 数 级 增加 ， 而 且 
还 会 人 下 技术 债 ; 

口 防止 工作 中 心 启 动 新 的 工作 ， 那 样 可 能 会 在 系统 中 引入 新 的 错误 ; 

口 如 果 问 题 还 没有 得 到 解决 ， 那 么 工作 中 心 在 下 一 次 操作 〈 如 55 秒 后 ) 中 ， 可 能 还 会 遇 到 
相同 的 问题 ， 需 要 更 高 的 修复 成 本 〈 见 附录 6 )。 


这 种 全 民 总 动员 的 做 法 似乎 违背 了 常规 管理 方法 ， 因 为 局 部 问题 扰乱 了 整体 的 运营 。 然 而 ， 
全 民 总 动员 让 学 习 成 为 了 可 能 。 它 还 能 防止 由 于 记忆 模糊 和 情况 变化 导致 的 关键 信息 遗失 , 这 在 
复杂 系统 中 显得 尤为 重要 。 在 复杂 的 系统 里 ， 由 于 人 人员、 流程、 产品 、 地 点 和 境况 中 存在 着 很 多 
意 想 不 到 的 、 特 殊 的 相互 作用 , 会 出 现 很 多 问题 。 随 着 时 间 推 移 ， 谁 都 不 可 能 精确 地 重 现 问题 发 
生 时 的 场景 "。 


正如 Spear 博士 所 说 ， 全 民 总 动员 是 “实时 的 问题 识别 、 定 位 和 处 理 (在 制造 业 称 为 对 策 
或 纠正 措施 ) 循环 的 一 部 分 。 这 就 是 休 哈 特 提 出 的 循环 ( 即 PDCA 环 ) 计划 ( Plan )、 实 施 
(Do )、 检 查 〈Check )、 改 进 〈Act )， 后 来 由 爱德华 效 ' 戴 明 推广 并 得 到 了 迅猛 发 展 ”。 


只 有 尽 可 能 在 早期 阶段 , 通过 全 民 总 动员 的 方式 来 解决 小 问题 ,才能 把 灾难 性 事故 消灭 在 萌 
芽 状 态 。 换 名 话说 ， 当 核反应 堆 的 堆 忆 熔 毁 了 ， 那 就 太 迟 了 ， 已 经 回 天 乏术 。 


为 了 在 技术 价值 流 中 实施 快速 反馈 , 我 们 必须 建立 等 同 于 安 灯 绳 和 全 民 响 应 的 机 制 。 这 要 求 
我 们 也 创造 出 这 样 一 种 文化 ， 让 人 们 在 发 生 问题 时 就 去 拉动 安 灯 强 ， 无 论 是 在 生产 事故 发 生 时 ， 
还 是 在 价值 流 的 早期 出 现 错误 时 ,并 且 这 个 行为 是 安全 的 甚至 是 受 鼓励 的 。 例 如 ， 当 有 人 提交 了 
一 个 代码 变更 ， 而 这 导致 了 持续 构建 或 测试 过 程 失败 的 时 候 。 


触发 了 安 灯 绳 时 ， 我 们 就 聚集 在 一 起 解决 问题 ， 停 止 开 展 任何 新 工作 ， 直 到 问题 解决 。 这 
给 价值 流 中 的 每 个 人 提供 了 快速 反馈 〈 特别 是 那个 导致 系统 故障 的 人 )， 让 我 们 能 够 快速 地 隔离 
和 定位 问题 ， 避 免 出 现 更 复杂 的 状况 ， 导 致 问题 的 因果 关系 变 得 模糊 。 

阻止 开展 新 工作 有 助 于 实现 持续 集成 和 部 署 ,这 就 是 技术 价值 流 中 的 单 件 流 。 能 通过 持续 构 
建 和 集成 测试 的 所 有 变更 都 可 以 部 署 到 生产 环境 中 ,任何 导致 测试 失败 的 变更 都 会 触发 安 灯 绳 ， 
并 且 会 将 大 家 聚集 起 来 解决 问题 。 


























































































































了 > 





















































@ 事故 的 发 生 具 有 一 次 性 和 难 追溯 性 。 一 一 译 者 注 
@) 令 人 惊讶 的 是 ， 当 安 灯 绳 的 使 用 次 数 下 降 时 ， 工 三 经 理 实际 上 会 降低 界 值 来 增加 它 的 使 用 次 数 ， 从 而 持续 地 进行 
更 多 的 学 习 和 改进 ， 并 去 检测 更 微弱 的 故障 信号 。 
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3.4 在 源头 保障 质量 


基于 对 意外 和 事故 的 处 理 模式 ,我 们 可 能 会 在 无 意 中 把 某 种 不 安全 的 工作 系统 固化 下 来 。 在 
复杂 的 系统 中 ， 通 过 加 入 更 多 的 检查 步骤 和 审批 流程 ,实际 上 还 增加 了 故障 发 生 的 可 能 性 。 做 决 
策 的 地 方 一 般 远离 执行 工作 的 地 方 , 这 导致 审 批 流程 的 有 效 性 有 所 下 降 。 这 样 做 不 仅 降低 了 决策 
质量 , 而 有 还 增加 了 决策 周期 ,进而 减弱 了 因果 关系 之 间 反 馈 的 强度 ,降低 了 在 成 功 和 失败 中 学 
习 的 能 力 。" 


在 一 些 相对 较 小 的 简单 系统 中 也 存在 这 种 状况 。 通 常 因为 清晰 度 和 及 时 性 不 足 , 自 上 而 下 的 
官僚 主 义 和 控 制 系统 变 得 无 效 ,导致 了 “应 该 做 事 的 人 ”和 “实际 做 事 的 人 ”之 间 存 在 巨大 差异 。 


质量 控制 无 效 的 例子 如 下 。 


D 需要 其 他 团队 帮忙 完成 一 系列 乏味 、 易 出 错 和 手动 执行 的 任务 ， 这 些 任务 本 应 该 由 需求 
方 自己 采用 自动 化 方式 完成。 

D 需要 那些 远离 实际 工作 场所 且 公 务 繁忙 的 人 批准 ， 迫 使 他 们 在 不 了 解 工作 情况 和 潜在 影 
响 的 情况 下 做 出 决策 ， 或 者 仅仅 是 例行公事 式 地 羡 章 批准 。 

D 编写 大 量 售 有 可 疑 细节 ， 且 在 写 后 不 久 就 过 时 了 的 文档 。 

口 将 大 量 工作 推 给 运 维 团队 和 专家 委员 去 审批 和 处 理 ， 然 后 等 待 回复 。 


相反 , 在 日 常 工作 中 , 我 们 需要 价值 流 中 的 每 个 人 在 他 们 的 控制 领域 里 发 现 并 解决 问题 。 通 
过 这 种 方式 ,可 以 把 质量 控制 、 安 全 责任 和 决策 制定 都 置 于 开展 工作 的 场景 里 ， 而 不 是 依赖 于 外 
围 高 层 管理 者 的 审批 。 


根据 同行 评审 来 评定 所 提出 的 变更 , 确保 这 些 变 更 会 按照 设计 运行 。 尽 可 能 多 用 自动 化 方式 
执行 通常 由 QA 和 信息 安全 人 员 来 进行 的 质量 检查 。 按 需 执行 自动 化 测试 ， 而 无 需 开 发 人 员 向 测 
试 团队 请 求 或 发 起 测试 工作 。 这 样 , 开发 人 员 能 够 快速 地 测试 自己 的 代码 ,其 至 把 代码 的 变更 部 
署 到 生产 环境 中 。 

我 们 用 这 种 方式 真正 地 让 所 有 人 都 负 起 了 质量 责任 , 而 不 是 仅 让 一 个 部 门 来 负责 。 信息 安全 
并 不 是 信息 安全 部 门 专属 的 工作 ， 正 如 可 用 性 不 仅仅 是 运 维 部 门 的 专属 工作 一 样 。 

让 开发 人 员 也 对 系统 质量 负责 ,不 但 能 提高 系统 的 质量 ， 而 且 还 能 加 速 学 习 。 这 对 于 开发 人 
员 来 说 尤为 重要 ， 因 为 通常 他 们 是 距离 客户 最 远 的 团队 。 正 如 Gary Gruver 所 说 :“ 当 有 人 因为 6 
个 月 前 开发 人 员 所 造成 的 事故 而 对 着 他 们 哆 哮 时 , 开发 人 员 其 实学 不 到 任何 东西 一 一 这 就 是 我 们 










































































































































































QD 18 世纪 初 的 英国 政府 就 是 这 样 一 个 例子 ， 当 时 自 上 而 下 的 官僚 指挥 显然 是 无 效 的 。 那 时 候 佐 治 亚 州 还 是 英国 的 殖 
民 地 。 虽 然 英国 政府 距 其 3000 英里 ( 约 4800 千 米 ) 之 遥 ， 并 且 关 于 当地 土壤 特质 、 岩 石 、 地 形 、 水 源 和 其 他 条 
件 的 第 一 手 资料 都 很 匮乏 ， 却 试图 规划 佐治 亚 州 的 整个 农业 经 济 ， 结 果 导 致 佐治 亚 州 沦 为 北美 13 个 殖民 地 中 最 
萧条 和 人 口 最 少 的 一 个 。 











































































































22 第 3 章 第 二 步 : 反馈 原则 








必须 尽 可 能 快 地 ( 几 分 钟 之 后 ， 而 不 是 几 个 月 后 ) 向 所 有 人 提供 反馈 的 原因 。” 


3.5 ”为 下 游 工 作 中 心 而 优化 


20 世纪 80 年 代 ， 可 制造 性 设计 ( Designing for Manufacturability ) 原则 由 在 设计 零件 和 工艺 
过 程 ， 让 成 品 能 够 以 最 低 的 成 本 、 最 高 的 质量 和 最 快 的 流程 生产 出 来 。 例如, 设计 出 非 对 称 的 部 
件 以 防止 装 反 ,设计 出 螺丝 紧 固件 以 免 部 件 被 近 得 太 紧 。 


这 偏离 了 通常 做 设计 的 方式 ， 即 过 度 重视 外 部 客户 ， 而 忽视 了 内 部 利益 干系 人 ， 如 生产 线 
二 人 6 


精益 定义 了 我 们 必须 为 两 类 客户 而 设计 : 外 部 客户 ( 最 有 可 能 为 我 们 提供 的 服务 付费 的 人 ) 
和 内 部 客户 ( 紧 随 我 们 立即 接收 和 处 理工 作 的 人 )。 根 据 精 益 原 则 ， 我 们 最 重要 的 客户 是 我 们 的 
下 游 。 为 他 们 而 优化 我 们 的 工作 , 需要 我 们 对 他 们 的 问题 给 予 同情 心 ， 从 而 更 好 地 识别 出 会 阻碍 
快速 和 平滑 流动 的 设计 问题 。 


在 技术 价值 流 中 , 我 们 通过 为 运 维 而 设计 来 为 下 游 工作 中 心 做 优化 , 包括 运 维 的 非 功能 性 需 
求 (如 架构 、 性 能 、 稳 定性 、 可 测试 性 、 可 配置 性 和 安全 性 ) 与 用 户 功 能 同样 重要 。 

这 样 , 我们 就 在 源头 保障 了 质量 , 并 形成 了 一 套 非 功 能 性 需求 ， 可 以 主动 地 将 它们 集成 到 构 
建 的 所 有 服务 中 。 






























































3.6 小 结 
建立 快速 的 反馈 机 制 ， 对 于 实现 技术 价值 流 中 的 高 质量 、 可 靠 性 和 安全 性 至 关 重 要 。 为 此 ， 
要 在 问题 发 生 时 识别 问题 ,群策群力 解决 问题 并 构建 新 的 知识 ,在 源头 控制 质量 , 并 日 不 断 地 为 
下 游 工 作 中 心 做 优化 。 

第 四 部 分 会 介绍 在 DevOps 价值 流 中 实现 快速 流动 的 具体 实践 。 下 一 章 ， 我 们 会 介绍 第 三 步 
工作 法 一 一 持续 学 习 与 实验 原则 。 


























第 4 章 
第 三 步 : 持续 学 习 写 实验 原则 











第 一 步 建立 了 从 左 到 右 的 工作 流 ， 第 二 步 建 立 了 从 右 到 左 的 快速 、 持 续 的 反馈 , 第 三 步 要 建 





的 财富 。 


在 制造 业 的 生产 流程 中 , 由 于 存在 系统 性 的 质量 和 安全 问题 , 所 以 往往 需要 严格 定义 并 完成 
工作 内 容 。 例 如 , 在 上 一 章 描述 的 通用 汽车 的 弗 里 蒙特 制造 三里 ， 工 人 几乎 无 法 在 日 常 工作 中 做 
出 改进 或 融入 所 学 ， 即 使 提出 改进 建议 也 很 少 被 接受 。 


在 这 样 的 环境 里 ,通常 会 弥漫 着 恐惧 和 不 信任 感 。 工 人 犯 了 错 就 会 受到 惩罚 , 那些 提出 建议 
或 指出 问题 的 工人 则 会 被 认为 是 告密 者 或 管 闲事 的 人 。 当 发 生 了 上 述 情况 时 ,领导 层 会 故意 压制 ， 
甚至 进行 惩罚 ， 这 导致 了 质量 和 安全 问题 的 进一步 恶化 。 


相反 , 在 那些 高 绩效 的 组 织 中 ,， 则 要 求 并 积极 地 促进 学 习 。 工 作 不 是 严格 定义 的 ， 相反, 工 
作 系统 是 动态 的 , 生产 线 工 人 在 日 常 工作 中 通过 实验 来 做 出 新 的 改进 。 工 作 流 程 是 严格 标准 化 的 ， 
工作 结果 都 会 写 入 文档 。 


技术 价值 流 的 核心 是 建立 高 度 信 任 的 文化 。 它 强调 每 个 人 都 是 持续 学 习 者 , 必须 在 日 常 工作 
中 承担 风险 ; 通过 科学 的 方式 改进 流程 和 开发 产品 ， 从 成 功 和 失败 中 积累 经 验 教训 ,从 而 识别 有 
价值 的 想法 , 握 弃 无 用 的 想法 。 男 外 ， 所 有 局 部 的 经 验 都 会 快速 转化 为 全 局 性 的 改进 ， 从 而 帮助 
整个 组 织 尝 试 和 实践 新 技术 。 


为 日 常 工作 的 改进 预 留 时 间 ， 从 而 进一步 促进 和 保障 学 习 。 通过 不 断 向 系统 加 压 的 方式 , 来 强化 
持续 改进 。 在 可 控 的 情况 下 ， 我 们 甚至 通过 在 生产 环境 里 模拟 或 者 注入 故障 来 增强 弹性 (resilience )。 

通过 建立 持续 、 动 态 的 学 习 机 制 , 帮助 团队 快速 并 自动 地 适应 不 断 变 化 的 环境 ， 进 而 帮助 企 
业 在 市 场 竞 争 中 脱颖而出 。 











































































































4.1 建立 学 习 型 组 织 和 安全 文化 
在 复杂 系统 中 工作 时 , 精确 地 预测 出 结果 是 不 现实 的 。 因 此 , 在 日 常 工作 中 , 即便 未 雨 绸 缪 、 
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小 心 弄 慎 ， 意 外 依然 会 发 生 ， 甚 至 有 时 还 会 发 生 灾难 性 的 事故 。 


当 某 些 意外 影响 到 客户 时 ,我 们 努力 追 本 溯源 ,但 根本 原因 通常 会 被 认定 为 人 为 错误 ， 而 管 
理 层 的 做 法 往往 是 点 名 、 责 备 ， 甚 至 羞辱 责任 人 。”" 而且， 管理 者 还 会 暗示 ， 犯 错 的 人 应 当 受 到 
惩罚 。 他 们 因此 会 制定 出 更 多 防范 错误 复发 的 流程 和 审批 环节 。 


Sidney Dekker 博士 曾 定义 了 安全 文化 的 一 些 关 键 要 素 ， 并 创造 了 “正义 文化 ”这 一 术语 。 
他 写 道 :“ 不 公正 的 事故 和 意外 处 理会 阻碍 安全 调查 ， 让 安全 工作 者 感到 恐惧 〈 而 不 是 专注 ) 让 
整个 组 织 更 加 官僚 “〈 而 非 更 加 细致 )， 甚 至 还 会 导致 信息 封闭 、 责 任 逃 避 和 滋生 自我 保全 意识 。 


这 些 问 题 在 技术 价值 流 中 显得 特别 突出 一 一 技术 类 工作 几乎 都 是 在 复杂 系统 中 进行 的 , 管理 
层 对 事故 责任 人 进行 惩罚 不 但 会 引起 玉 ， 惧 感 ， 还 会 导致 问题 和 故障 的 隐瞒 不 报 , 直到 下 一 个 灾难 
性 事故 的 发 生 。 


Ron Westrum 博士 是 研究 企业 文化 中 安全 和 绩效 重要 性 的 鼻祖 之 一 。 他 曾 指出 ， 在 医疗 机 构 
中 ， 患 者 的 生命 安危 高 度 依赖 于 医疗 机 构 的 “生机 ”文化 。 他 定义 了 三 种 类 型 的 文化 ， 如 表 4-1 
所 示 。 


口 病态 型 : 病态 型 组 织 的 特点 是 组 织 中 存在 大 量 恕 惧 和 威胁 。 由 于 政治 原因 ， 个 体 为 了 保 
全 自身 利益 ， 通 常会 隐瞒 真相 或 者 下 曲 事实 。 在 这 种 组 织 中 ， 故 障 和 事故 经 常 被 隐瞒 。 
D 官僚 型 : 官僚 型 组 织 的 特点 是 规则 和 流程 僵化 ， 所 有 部 门 通 常 都 “ 自 扫 门 前 雪 ”"。 在 这 种 
组 织 中 ， 通 过 评判 系统 处 理事 故 ， 结 果 往往 恩 威 兼 施 。 

口 生机 型 : 生机 型 组 织 的 特点 是 积极 探索 和 分 享 信息 ， 让 组 织 更 好 地 履行 使 命 。 在 这 种 组 
织 中 ， 整 个 价值 流 中 所 有 的 员工 共同 承担 责任 ,对 事故 进行 积极 反思 ， 并 进行 真正 的 根 

























































































































































































































































































因 调 查 。 
表 4-1 Ron Westrum 的 组 织 类 型 学 模型 : 组 织 如 何 处 理 信 息 
病 态 型 官 僚 型 生 机 型 
隐瞒 信息 忽略 信息 积极 探索 信息 
消灭 信使 不 重视 信使 训练 信使 
逃避 责任 各 自 担 责 共 担 责任 
阻 得 团队 的 互动 容忍 团队 的 互动 鼓励 团队 间 结 盟 
隐瞒 事故 组 织 是 公道 和 宽容 的 调查 事故 根基 
压制 新 想法 认为 新 想法 会 造成 麻烦 接纳 新 想法 











(来 源 : Ron Westrum, “A typology of organisation culture,” BMJ Quality & Safety 13, no. 2 (2004), doi:10.1136/qshc.2003.009522 ) 





Q@ “点 名 、 责 备 和 羞辱 ”模式 是 Sidney Dekker 博士 批评 的 “ 坏 苹果 理论 ”的 一 部 分 , 在 他 的 The Field Guide to Understanding 
Human Error 一 书 里 有 深入 的 讨论 。 
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与 Westrum 博士 在 医疗 机 构 中 的 发 现 类 似 , 在 技术 价值 流 中 , 高 度 信任 的 生机 型 文化 对 组 织 
的 绩效 也 有 异曲同工 的 作用 。 


在 技术 价值 流 中 , 通过 努力 打造 安全 的 工作 系统 ,我 们 能 建立 起 生机 文化 的 基础 。 在 意外 和 
故障 发 生 时 ， 关 注 如 何 重新 设计 系统 ， 从 而 防止 事故 复发 ， 而 不 是 去 追究 人 的 问题 。 


例如 ， 可 以 在 每 次 事故 发 生 后 进行 不 指责 的 回顾 ， 对 事故 发 生 的 原因 和 过 程 做 出 客观 解释 ， 
并 就 优化 系统 的 最 佳 措施 达成 一 致 。 在 理想 情况 下 ,这 不 但 能 防止 问题 复发 , 还 有 助 于 实现 更 快 
的 故障 定位 和 恢复 。 


我 们 能 够 通过 以 上 的 方式 建立 学 习 型 组 织 。Etsy 的 工程 师 Bethany Macri 发 起 并 开发 了 事故 
回顾 记录 工具 Morgue, 他 说 :“ 如 果 不 指责 ,员工 就 没有 了 慌 惧 , 没有 了 疏 惧 ， 就 能 够 做 到 坦诚 ， 
而 坦诚 能 够 有 效 预防 事故 。 


Spear 博士 认为 ， 消 除 指责 能 够 有 效 实现 学 习 型 组 织 ， 使 “组 织 自 我 诊断 和 自我 优化 ， 并 能 
熟练 地 定位 和 解决 问题 "。 

Senge 博士 描述 了 学 习 型 组 织 的 诸多 特质 。 他 在 《第 五 项 修炼 : 学 习 型 组 织 的 艺术 与 实践 》 
一 书 中 写 道 , 这些 特 质 有 助 于 实现 客户 价值 ， 保 证 服务 质量 ， 揭 示 事 故 真 相 ， 并 打造 具有 竞争 优 
势 、 充 满 活力 和 高 度 忠诚 的 组 织 。 
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如 果 团 队 没 有 能 力 或 者 意愿 去 改进 现 有 的 流程 ， 那 么 就 会 持续 饱 受 眼前 问题 的 困扰 和 折磨 ， 
而 且 痛 苦 指 数 还 会 与 日 俱 增 。Mike Rother 在 《丰田 套路 》 一 书 中 指出 ， 就 算 不 去 优化 现状 ， 流 
程 也 不 会 是 一 成 不 变 的 一 一 由 于 混乱 和 无 序 ， 流 程 会 随 着 时 间 的 推移 持续 恶化 。 


在 技术 价值 流 中 ， 为 了 防止 灾难 性 事故 的 发 生 ， 团 队 陷 于 实施 各 种 临时 解决 方案 的 工作 中 ， 
反而 没有 时 间 去 完 那 些 有 价值 的 工作 。 因 此 , 用 临时 方案 解决 问题 的 模式 往往 还 会 导致 问题 和 技 
术 债 务 的 累积 。 所 以 《精益 企业 》 的 作者 Mike Orzen 说 :“ 比 日 常 工作 更 重要 的 ， 是 对 日 常 工作 
的 持续 改进 。 


通过 明确 预 留 时 间 来 改善 日 常 工作 , 包括 预 留 时 间 来 偿还 技术 债 、 修 复 缺陷 、 重 构 和 优化 代 
码 和 环境 。 可 以 在 每 个 开发 周期 的 间歇 中 预 留 一 段 时 间 , 或 者 安排 改善 闪电 战 ( kaizen blitze ) 时 
段 ， 让 工程 师 通过 自 组 团队 的 方式 来 解决 他 们 感 兴趣 的 问题 。 

通过 采取 以 上 措施 , 在 日 常 工作 中 , 所 有 人 都 始终 能 在 可 挖 的 范围 内 发 现 和 解决 问题 。 在 解 
决 了 困扰 团队 数 月 甚至 几 年 的 重大 问题 后 , 接 下 来 就 可 以 消除 系统 中 其 他 的 潜在 问题 。 及 早 定位 
和 识别 那些 潜在 的 问题 ， 不 但 能 降低 解决 问题 的 成 本 ， 而 且 系 统 承担 的 风险 也 会 更 小 。 
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1987 年 ， 美 铝 公 司 ( 一 家 铝 制造 商 ， 当 时 有 90 000 名 雇员 ,年 收入 78 亿美 元 ) 改进 了 工作 
场所 的 安全 性 。 生 产 铝 是 需要 高 温 、 高 压 和 强 腐蚀 性 化 学 品 的 。 美 铝 1987 年 的 事故 率 居 高 不 下 ， 
每 年 有 近 2% 的 员工 受伤 ,平均 每 天 7 人 左右 。 当 Paul ONeil 担任 首席 执行 官 时 ， 他 设 定 的 第 一 
个 目标 是 让 员工 、 协 作 方 和 访客 的 伤害 数 降 为 零 。 


Paul ONeil 要 求 所 有 受伤 事故 必须 在 24 小 时 内 通报 一 一 这 不 是 为 了 惩罚 ， 而 是 为 了 持续 改 
进 ， 创 造 出 更 安全 的 工作 场所 。 通 过 这 项 举措 ， 美 铝 在 10 年 里 将 伤害 率 降 低 了 95%。 


随 着 伤害 率 的 降低 , 美 铝 就 可 以 把 精力 放 在 那些 较 小 的 问题 和 潜在 的 风险 上 一 一 他 们 开始 识 
别 潜在 的 风险 ， 而 不 仅 是 在 事故 发 生 后 通知 Paul O'Neil。 "通过 这 种 模式 ， 美 铝 改善 了 工作 场所 
的 安全 性 ， 在 接 下 来 的 20 年 里 ， 他 们 的 安全 记录 在 业内 一 直 保持 着 领先 。 


Spear 博士 写 道 :“ 美 铝 通过 识别 自身 的 处 境 、 困 难 和 障碍 , 逐 潮 用 动态 的 持续 改进 模式 替代 
了 传统 的 应 急 和 救火 队 模式 。 在 识别 了 风险 、 定 位 并 处 理 了 问题 之 后 ,他 们 就 去 反思 其 他 容易 被 
忽视 的 风险 ， 并 持续 改进 。 这 帮助 公司 在 市 场 上 获得 了 更 大 的 竞争 优势 。 


类 似 地 ， 对 于 技术 价值 流 而 言 ， 让 工作 系统 更 加 安全 也 一 样 有 助 于 发 现 和 解决 潜在 风险 。 例 
如 , 一 开始 我 们 可 能 只 是 对 影响 客户 服务 的 事故 做 不 指责 的 事后 调查 ， 随 着 时 间 的 推移 ， 我 们 将 
逐渐 地 识别 其 他 潜在 风险 。 





























































































































4.3 把 局 部 发 现 转化 为 全 局 优化 


一 旦 在 局 部 范围 内 取得 了 成 果 ， 就 应 当 把 它 分 享 给 组 织 里 的 其 他 人 ， 让 更 多 的 人 从 中 获 益 。 
换 名 话说, 当 单个 团队 或 个 人 获得 了 独 有 的 专业 知识 或 经 验 时 ,我 们 的 目标 是 把 这 些 隐 性 知识 ( 即 
很 难 通过 文档 或 沟通 的 方式 传递 的 知识 ) 转换 为 显 性 知识 , 从 而 帮助 其 他 人 吸取 这 些 专业 知识 并 
在 实践 中 应 用 。 


这 样 ， 当 其 他 人 也 要 完成 类 似 的 工作 时 ， 就 可 以 参照 以 往 集 体 的 经 验 和 智慧 。 把 局 部 知识 转 
化 为 全 局 知识 的 一 个 著名 案例 是 “美国 海军 核 动力 推进 计划 ”( 又 称 海军 反应 堆 ，Naval Reactors， 
NR )， 它 稳定 运行 的 时 间 超 过 了 5700 堆 年 ， 反 应 堆 至 今 尚 未 发 生 过 一 次 伤亡 或 核 汇 漏 事故 。 

NR 以 恪守 标准 化 流程 而 闻名 于 世 ， 出 现任 何 流程 或 操作 偏差 都 要 写 故 障 报 告 ， 以 便 积累 经 
验 。 不 管 故 障 信号 强 弱 ， 或 者 风险 大 小 如 何 ， 都 会 基于 这 些 经 验 持续 地 更 新 流程 和 系统 设计 。 

这 样 带 来 的 结果 是 : 在 任何 一 组 新 船员 出 海 时 , 他 们 都 能 迅速 地 从 集体 长 期 积累 的 智慧 中 获 
得 成 长 。 同样 令 人 印象 深刻 的 是 , 他 们 在 海上 的 经 验 也 会 持续 添加 到 这 个 智慧 库 中 ,以 帮助 以 后 
的 船员 安全 地 执行 任务 。 








































































































GD 这 是 极 具 教 育 意 义 的 、 真 正 的 提升 ， 我 们 能 看 到 Paul ONeil 对 于 领导 者 创造 安全 工作 环境 的 信念 和 热忱 。 
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在 技术 价值 流 中 , 我 们 也 应 该 通过 类 似 的 机 制 建立 全 局 知识 库 。 例 如 ,把 所 有 事故 报告 转化 
成 可 搜索 的 知识 库 , 让 有 需要 的 团队 能 更 加 方便 地 使 用 它 去 解决 类 似 问 题 , 同时 建立 起 组 织 级 的 
共享 源 代码 库 , 让 所 有 人 可 以 方便 地 使 用 整个 组 织 的 代码 、 库 和 配置 。 这 些 机 制 有 助 于 把 个 人 的 
专业 知识 转化 为 服务 更 多 成 员 的 集体 智慧 。 

















4.4 在 日 常 工作 中 注入 弹性 模式 


低 绩 效 组 织 想方设法 缓解 问题 ， 换 句 话 说， 他 们 疲 于 应 付 问 题 。 例 如 ， 为 了 降低 任务 空闲 的 
风险 (货物 未 到 场 ， 或 者 当前 的 库存 配件 都 是 报废 品 )， 管 理 者 可 能 会 在 每 个 工作 中 心里 存放 更 
大 量 的 在 制品 ,然而 , 这 个 缓冲 也 增加 了 在 制品 数量 , 前 文 所 提 到 的 各 种 不 良 后 果 也 会 接 呈 而 来 。 


类 似 地 , 为 了 降低 由 于 机 械 故 障 造 所 导致 的 生产 中 断 的 风险 , 管理 者 可 能 会 通过 购买 更 多 的 
设备 、 雇 用 更 多 的 员工 或 者 扩大 厂房 的 方式 来 增加 产能 。 可 是 所 有 这 些 做 法 同时 也 增加 了 成 本 。 


相对 而 言 ， 高 绩效 组 织 则 通过 改善 日 常 运营 ,持续 地 引入 张力 提高 生产 效率 ,同时 在 系统 中 
注入 更 大 的 弹性 ， 来 实现 或 达到 更 佳 的 结 


男 外 一 个 经 典 案例 是 丰田 的 一 个 顶级 供应 商 一 一 爱 信 精 机 公司 的 一 家 工厂 。 假设 他 们 有 两 条 
生产 线 , 每 条 生产 线 每 天 能 产 出 100 个 单位 的 产品 。 在 订单 不 紧急 的 时 候 , 他 们 把 所 有 的 生产 任 
务 都 发 送 到 其 中 一 条 生产 线 上 ,并 尝试 用 不 同 的 方式 来 增加 产量 和 识别 生产 流程 中 的 瓶 须 ; 如 果 
这 条 生产 线 由 于 过 载 而 发 生 了 故障 ， 他 们 就 会 把 生产 任务 发 往 另 一 条 生产 线 。 


通过 在 日 常 工作 中 持续 不 断 地 实验 , 他 们 能 够 持续 地 提高 产能 , 并 且 不 需要 增加 任何 新 设备 
或 人 员 。 引 入 这 种 类 型 的 改进 不 仅 提 高 了 生产 效率 ,而 且 还 提高 了 弹性 ， 因 为 组 织 总 是 处 在 紧张 
和 变化 的 状态 中 。 知 名 作者 和 风险 分 析 师 Nassim Nicholas Taleb 将 这 种 通过 加 压 来 增强 弹性 的 做 
法 称 为 抗 脆弱 性 ( antifragility )。 


在 技术 价值 流 中 ， 通 过 缩短 部 团 的 前 置 时 间 、 提 高 测试 覆盖 率 、 缩 短 测试 执行 时 间 ， 甚 至 在 
必要 时 解 硝 架 构 ,都 属于 在 系统 中 引入 类 似 张力 的 做 法 ,也 都 能 够 提高 开发 人 员 的 生产 效率 及 可 


-> 


靠 性 。 

另外 , 还 可 以 通过 演习 的 方式 来 预演 大 规模 故障 ， 比 如 关闭 某 个 数据 中 心 。 或 者 在 生产 环境 
中 注入 大 规模 故障 ( 如 Netflix 著名 的 “捣乱 猴 ”， 它 会 随机 杀 死 生产 环境 中 的 进程 和 服务 器 )， 
来 验证 系统 的 可 靠 性 是 否 达 到 了 预期 。 







































































4.5 领导 层 强化 学 习 文 化 


按照 传统 的 管理 模式 ， 领 导 者 负责 制订 目标 ， 分 配 资源 ， 建 立正 确 的 激励 机 制 ， 同 时 还 要 为 
组 织 建立 情感 基调 。 换 句 话 说 ,领导 者 通过 “做 出 所 有 正确 的 决定 ”来 领导 团队 。 
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然而 ， 有 证 据 表 明 ， 领 导 力 的 优秀 并 非 体现 在 做 出 的 所 有 决定 都 是 对 的 。 相 反 ， 更 卓越 的 领 
导 力 其 实 是 为 团队 创造 条 件 ,， 让 团队 能 在 日 常 工作 中 感受 到 这 种 卓越 。 换 句 话 说， 这 需要 领导 者 
和 员工 们 共同 的 努力 ， 每 个 人 都 相互 依存 ， 缺 一 不 可 。 


《走动 管理 》 的 作者 Jim Womack 描述 了 领导 者 和 一 线 工 作者 之 间 是 互补 的 工作 关系 , 必须 互 
相 尊 重 。 根 据 Womack 的 说 法 ,这 种 关系 是 必要 的 ， 因 为 谁 都 无 法 独立 解决 问题 一 一 领导 者 不 会 
亲自 从 事 解决 问题 所 需 的 一 线 工 作 , 而 一 线 工 作者 也 不 了 解 大 的 组 织 环 境 , 或 不 具备 在 工作 领域 
以 外 做 出 改变 的 权力 。” 


领导 者 必须 强调 解决 问题 的 能 力 和 学 习 的 价值 。Mike Rother 在 他 所 谓 的 教练 套路 ( coaching 
kata ) 中 规范 化 了 这 些 方法 。 结 果 体 现 了 一 种 科学 的 方法 一 一 明确 地 描述 我 们 的 《 真 北 》“ 目 标 ， 
就 像 美 铝 案例 中 的 “ 零 事故 ”或 爱 信 案 例 中 的 “一 年 内 吞吐 量 翻番 ”。 


在 这 些 战 略 目标 的 指导 下 , 我 们 建立 相互 幅 套 的 迭代 的 短期 目标 , 然后 在 价值 流 或 工作 中 心 
级 别 设 立 目标 条 件 〈 如 在 接 下 来 的 两 周 里 缩短 10% 的 前 置 时 间 )， 以 实现 这 些 目 标 。 


这 些 目标 条 件 构成 了 科学 实验 的 框架 : 清晰 地 描述 出 要 解决 的 问题 , 对 解决 方案 所 做 的 假设 ， 
验证 假设 的 方法 ， 对 结果 的 解释 ， 以 及 如 何 利用 经 验 进行 下 一 个 迭代 。 


领导 者 可 以 使 用 下 列 问题 来 帮助 和 辅导 实验 者 。 


口 上 一 步 做 了 什么 ? 发 生 了 什么 ? 
口 你 从 中 学 到 了 什么 ? 
口 现状 如 何 ? 
口 下 一 个 目标 条 件 是 什么 ? 
口 当前 工作 有 什么 阻碍 
口 下 一 步 做 什么 ? 
口 期 望 的 结果 是 什么 ? 
口 什么 时 候 能 进行 复查 ? 

领导 者 帮助 一 线 工 作者 在 日 党 工作 中 发 现 并 解决 问题 , 这 种 方式 实际 上 就 是 丰田 生产 系统 的 
核心 ， 也 是 学 习 型 组 织 、 改 善 套路 和 高 可 靠 性 组 织 的 核心 。Mike Rother 指出 :“ 丰 田 之 所 以 是 优 
秀 的 组 织 ， 根 本 原因 在 于 他 们 不 断 地 向 员工 传授 这 种 独特 的 行为 准则 。 

在 技术 价值 流 中 , 这 种 实验 和 迭代 改进 的 方法 , 不 但 能 指导 我 们 改进 内 部 流程 ,而且 还 能 指 
导 我 们 不 断 地 进行 实验 ， 保 证 构建 的 产品 能 为 内 部 和 外 部 客户 带 来 价值 。 
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Q@ 领导 者 负责 在 更 高 层面 设计 和 执行 流程 ， 其 他 人 在 这 方面 没有 足够 的 洞察 力 和 权力 。 
@ Bill George 和 Peter Sims 著 。 在 这 本 领导 力 巨 著 中 ， 作 者 深入 采访 了 当今 全 球 最 顶尖 的 125 位 领导 者 ， 与 读者 分 
享 这 些 卓 越 领导 者 的 智慧 ， 探 索 他 们 从 领导 到 领袖 的 心路 历程 。 一 一 编者 注 
























































4.6 小结 


三 步 工作 法 的 第 三 步 原 则 实现 了 学 习 型 组 织 ， 实 现 了 职能 部 门 之 间 的 高 度 信 任 和 跨 部 门 合 
作 , 接受 了 “复杂 系统 中 总 会 发 生 故 障 ” 的 事实 ， 并 鼓励 谈论 任何 问题 以 建立 一 个 安全 的 工作 系 
统 。 它 还 要 求 将 日 常 工作 的 改进 制度 化 , 把 局 部 成 果 转 化 为 可 供 整个 组 织 全 局 使 用 和 学 习 的 知识 ， 
以 及 不 断 向 日 常 工作 中 注入 张力 。 

虽然 培养 持续 学 习 与 实验 的 文化 是 第 三 步 原则 , 但 是 它 与 第 一 步 和 第 二 步 的 工作 方法 密 不 可 
分 。 换 句 话 说 ,要 实现 工作 的 快速 流动 和 快速 且 持 续 的 反馈 , 需要 使 用 迷 代 和 实验 的 方法 , 包括 
设立 目标 条 件 ， 说 明 设想 的 解决 方案 ， 设 计 和 进行 实验 ， 以 及 评估 结果 。 

第 三 步 工作 的 成 果 不 仅 是 获得 了 高 绩效 , 而 且 还 提升 了 弹性 、 员 工 的 工作 满意 度 以 及 组 织 的 
适应 性 。 



























































4.7 ”第 一 部 分 总 结 


在 第 一 部 分 ,我们 回顾 了 DevOps 的 发 展 史 ， 探讨 了 DevOps 组 织 转型 的 三 步 工作 法 : 流动 
原则 、 反 馈 原 则 和 持续 学 习 与 实验 原则 。 在 第 二 部 分 中 ,我 们 将 研究 如 何在 组 织 中 启动 DevOps。 








从 何 处 开始 














如 何在 组 织 中 迈 开 DevOps 转型 的 第 一 步 ?” 谁 需要 参与 ”如何 组 建 团 队 ? 如何 保 障 团队 成 
员 投入 精力 并 在 最 大 程度 上 获得 成 功 机 会 ? 第 二 部 分 将 回答 这 些 问 题 。 






































接 下 来 的 几 章 将 介绍 开启 DevOps 转型 的 过 程 。 首 先 评 佑 组 织 的 价值 流 ， 再 找到 合适 的 切 
入 点 ， 并 制定 策略 ， 以 组 建 专门 的 转型 团队 、 设 定 改进 目标 并 最 终 进行 推广 。 对 于 转型 所 涉及 
的 每 个 价值 流 ， 本 部 分 将 阐述 相关 工作 ， 并 分 析 最 有 利于 实现 转型 目标 的 组 织 设计 策略 和 组 织 
原型 。 



























































本 部 分 重点 讨论 如 下 话题 : 


口 选择 合适 的 价值 流 作为 切入 点 ; 

口 理解 待 转型 价值 流 中 的 工作 ; 

D 参考 康 威 定律 设计 组 织 架构 ; 

口 通过 价值 流 中 各 职能 团队 间 更 有 效 的 协作 ， 实 现 面向 市 场 的 产 出 ; 
D 保护 团队 ， 并 为 其 赋 能 。 



































任何 转型 在 开始 时 都 充满 着 不 确定 性 一 一 我 们 正在 策划 的 旅程 有 着 美好 的 目的 地 ， 可 是 几 
乎 所 有 的 中 间 步 又 都 是 未 知 的 。 接 下 来 的 几 章 旨 在 指导 思考 和 决策 ， 并 提供 可 行 的 措施 及 案例 
人 研究 。 






































选择 合适 的 价值 流 作 为 
切入 点 




















选择 合适 的 价值 流 进行 DevOps 转型 ,这 一 工作 值得 仔细 其 酌 。 它 不 仅 决定 了 转型 过 程 的 难 
度 ， 而 且 还 决定 了 转型 过 程 的 参与 者 ; 它 不 仅 影响 到 如 何 组 建 团 队 ， 而且 还 影响 到 如 何 让 团队 及 
其 成 员 以 最 佳 方式 参与 其 中 。 


Etsy 的 运营 总 监 Michael Rembetsy 成 功 地 帮助 公司 在 2009 年 完成 了 DevOps 转型 。 他 从 另 一 
个 角度 前 述 了 转型 的 困难 。 他 说 :“ 我 们 必须 认真 挑选 转型 项 目 ， 因 为 在 遇 到 困难 时 ， 我 们 并 没 
有 退路 。 必 须 仔 细 挑 选 和 保护 那些 最 有 可 能 改善 组 织 现状 的 重点 转型 项 目 。 


接 下 来 , 我 们 看 看 Nordstrom 是 如 何在 2013 年 开始 DevOps 转型 之 旅 的 。Nordstrom 的 电子 
商务 和 店面 系统 技术 副 总 裁 Courtney Kissler 在 2014 年 和 2015 年 的 DevOps 企业 峰会 上 都 分 享 了 
这 个 故事 。 


Nordstrom 成 立 于 1901 年 。 作 为 领先 的 时 装 零售 商 ,， 该 公司 致力 于 为 客户 提供 完美 的 购物 体 
验 。2015 年 ， 公 司 的 年 销售 额 高 达 135 亿美 元 。 


Nordstrom 的 DevOps 转型 之 旅 始 于 2011 年 的 一 次 年 度 董事 会 会 议 。 增 加 线 上 车 收 的 必要 性 
是 当时 的 一 个 战略 议题 。 会 议 研 究 了 Blockbuster、Borders 和 巴 诺 书店 所 面临 的 困境 。 董 事 们 意 
识 到 ,如 果 传 统 零售 商 不 能 及 时 地 形成 可 与 电 商 抗衡 的 竞争 力 , 那么 将 会 面临 严重 的 后 果 一 一 传 
统 企业 正在 丧失 市 场 的 领先 地 位 ， 有 的 甚至 面临 倒闭 的 风险 "。 


当时 ，Courtney Kissler 是 系统 交付 及 销售 技术 高 级 总 监 ， 负 责 技 术 部 门 的 大 部 分 工作 ,包括 
店内 系统 和 电 商 网 站 。 她 说 :“2011 年 ， Nordstrom 的 技术 部 门 非常 注重 成 本 优化 ， 很 多 技术 工 
作 都 被 外 包 出 去 了 ,公司 每 年 计划 发 布 一 大 批 采 用 瀑布 式 开发 的 新 版 本 。 虽 然 能 完成 计划 、 预 算 
和 业务 目标 的 97%, 但 随 着 公司 开始 追求 效率 优化 而 不 仅 是 成 本 优化 , 以 前 的 模式 无 法 实现 公司 
未 来 5 年 的 目标 。” 




























































































@ 这些 企 业 有 时 被 称 为 “垂死 挣扎 的 杀人 蜂 ”。 
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Courtney Kissler 和 Nordstrom 的 技术 管理 团队 需要 决定 从 何 处 开始 转型 。 他 们 并 不 想 引 发 整 
个 系统 的 巨变 ， 而 是 想 把 重点 放 在 非常 具体 的 业务 领域 上 上 ， 这 样 就 可 以 边 试 边 学 。 他 们 的 目标 是 
快速 取得 成 功 , 使 所 有 人 都 相信 这 些 实践 可 以 用 于 组 织 的 其 他 领域 。 但 是 , 到 底 该 如 何 转 型 呢 ? 


最 终 ， 他 们 选择 从 三 个 领域 人 手 : 面向 客户 的 移动 端 应 用 、 店 内 餐厅 系统 和 数字 化 资产 。 这 
儿 个 领域 都 有 未 能 完成 的 业务 目标 。 因 此， 相关 人 员 更 有 意愿 尝试 不 同 的 工作 方式 。 以 下 是 前 两 
个 领域 的 转型 故事 。 


Nordstrom 的 移动 端 应 用 有 着 坎坷 的 诞生 经 历 。Courtney Kissler 描述 道 :“ 客 户 对 这 个 应 用 感 
到 非常 失望 。 自 从 它 在 苹果 应 用 商店 上 线 以 来 ,我 们 收 到 了 大 量 的 负面 评价 。 更 糟糕 的 是 ， 现 有 
的 架构 和 流程 ( 即 “ 系 统 ”) 很 难 扩展 ， 导 致 每 年 只 能 更 新 两 次 。” 换 句 话 说， 对 应 用 所 做 的 任何 
更 新 都 必须 等 待 数 月 才能 交付 给 客户 。 


他 们 的 第 一 个 目标 , 是 提高 发 布 速度 或 实现 按 需 发 布 , 从 而 拥有 更 强 的 迭代 能 力 和 对 客户 反 
馈 的 响应 能 力 。 为 此 ,他 们 专门 组 建 了 一 个 为 移动 端 应 用 提供 支持 的 产品 团队 , 让 这 个 团队 能 够 
独立 地 开发 、 测 试 并 向 客户 交付 价值 。 通 过 这 种 方式 ， 该 团队 不 再 需要 依赖 Nordstrom 内 部 的 其 
他 团队 , 也 不 再 需要 与 它们 协作 。 此 外 , CourtneyKissler 和 同事 将 一 年 一 次 的 规划 改 为 持续 规划 。 
这 样 一 来 , 他 们 便 能 根据 客户 需求 为 移动 端 应 用 制作 一 份 独立 的 优先 级 工作 清单 , 从 而 避免 由 于 
同时 支持 多 个 产品 而 导致 的 优先 级 冲突 。 


第 二 年 ， 他 们 把 原先 单独 进行 的 测试 工作 纳入 每 个 人 的 日 常 工作 "。 每 月 交付 的 特性 增加 了 
一 倍 ， 同 时 缺陷 减少 了 一 半 ， 转 型 初 见 成 效 。 


Nordstrom 选择 的 第 二 个 转型 领域 是 其 Café Bistro 店内 餐厅 的 支持 系统 。 这 个 领域 与 移动 端 
应 用 的 价值 流 不 同 : 移动 端 应 用 的 业务 需求 是 缩短 交付 周期 和 提高 开发 效率 ,而 餐厅 系统 的 业务 
需求 是 降低 成 本 和 提高 质量 。2013 年 ，Nordstrom 实施 了 11 项 “餐厅 创新 概念 ”"， 对 系统 做 了 一 
系列 变更 ,多 次 对 客户 造成 影响 。 令 人 不 安 的 是 ,公司 还 计划 在 2014 年 实施 44 项 创新 概念 ， 数 
量 是 前 一 年 的 4 倍 。 


Courtney Kissler 说 道 :“ 当 时 ， 一 位 业务 高 管 建议 通过 把 团队 规模 扩大 两 倍 来 处 理 这 些 新 需 
求 ， 但 我 认为 不 应 该 投入 更 多 人 力 ， 当 务 之 急 是 改善 现 有 的 工作 方式 。 

通过 找 出 问题 并 集中 精力 加 以 解决 ( 如 改善 工作 选取 流程 和 部 署 流程 )， 他 们 将 代码 部 署 时 
间 缩 短 了 60%， 同 时 将 生产 环境 的 故障 数量 降低 了 60% ~ 90%。 


这 些 成 果 使 团队 相信 ，DevOps 的 原则 和 实践 适用 于 各 种 价值 流 。2014 年 ，Courtney Kissler 
晋升 为 电子 商务 和 店面 系统 技术 副 总 裁 。 






































































































































































































































Qz 依靠 项 目 后 期 的 系统 加 固 阶 段 来 发 现 问题 ， 往 往 得 不 到 好 的 效果 ， 因 为 这 意味 着 在 日 常 工作 中 不 能 及 时 发 现 和 解 
决 问题 ， 而 这 些 遗 留 问题 可 能 像 滚 雪 球 一 样 变 成 更 严重 的 问题 。 
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2015 年 ， 当 谈 到 帮助 销售 部 门 及 面向 客户 的 技术 部 门 实现 业务 目标 时 ，Courtney Kissler 表 
示 :“…… 我 们 需要 提高 整个 技术 价值 流 的 效率 ， 而 不 仅仅 是 几 个 试点 项 目 。 于 是 ,管理 层 设 立 
了 一 个 全 局 目标 : 将 所 有 面向 客户 的 服务 的 上 线 周期 缩短 20%。” 


她 继续 说 道 :“ 这 是 一 个 巨大 的 挑 盛 。 我 们 当前 的 运作 方式 还 有 很 多 问题 ， 璧 如 各 团队 无 法 
统一 测量 流程 和 周期 , 指标 也 无 法 可 视 化 。 因此 , 我 们 的 第 一 个 目标 就 是 帮助 所 有 团队 测量 周期 ， 
使 之 可 视 化 ， 并 尝试 缩短 交付 周期 ， 然 后 不 断 迭 代 。” 


Courtney Kissler 总 结 道 :“ 从 整体 上 看 ， 我 们 相信 愿景 可 以 通过 一 些 手 段 实现 ， 如 价值 流 映 
射 、 单 件 流 、 持 续 交 付 以 及 微服 务 。 虽 然 仍 在 学 习 中 ， 但 我 们 确信 团队 正 朝 着 正确 的 方向 前 进 ， 
并 且 每 一 位 团队 成 员 都 感受 到 了 来 自 管理 层 的 支持 。 

本 章 将 提供 几 个 模型 , 你 可 以 用 它们 复制 Nordstrom 团队 在 选择 价值 流 作 为 转型 切入 点 时 的 思 
考 过 程 。 我们 将 从 多 个 方面 评估 入 选 的 价值 流 , 包括 是 选择 绿地 项 目 还 是 棕 地 项 目 , 以 及 是 选择 交 
互 型 系统 还 是 记录 型 系统 。 我 们 还 将 权衡 转型 的 风险 和 收益 ， 并 评估 相关 团队 对 转型 的 消极 程度 。 

















































































































5.1 绿地 项 目 与 棕 地 项 目 


软件 服务 或 产品 常 被 分 为 绿地 项 目 和 棕 地 项 目 , 这 两 个 术语 最 初 用 于 描述 城市 规划 和 建设 项 
目 。 绿地 项 目 是 指 在 未 开发 的 土地 上 建设 的 项 目 , 而 棕 地 项 目 则 是 指 在 以 前 用 于 工业 生产 的 土地 
上 建设 的 项 目 , 这 样 的 土地 可 能 受到 有 毒物 质 或 污染 物 的 侵蚀 。 在 城市 的 发 展 过 程 中 , 许多 因素 
使 得 绿地 项 目 比 棕 地 项 目 更 容易 实施 一 一 前 者 既 不 需要 拆除 建筑 ， 也 不 需要 清除 有 毒物 质 。 


在 技术 领域 ,绿地 项 目 是 指 全 新 的 软件 项 目 。 这 种 项 目 通 常 还 处 在 规划 或 实施 的 早期 阶段 ， 
有 机 会 构建 全 新 的 应 用 和 基础 设施 ,并 没有 太 多 限制 。 开展 绿 地 软件 项 目 相 对 更 容易 ， 在 项 目 预 
算 或 团队 已 到 位 时 更 是 如 此 。 男 外 ， 因 为 是 从 零 开始 ， 所 以 对 已 有 的 代码 库 、 流 程 和 团队 没有 太 
多 顾虑 。 


DevOps 绿地 项 目 通 常 是 指 一 些 试点 项 目 ， 用 于 证 明 公 有 云 或 私有 云 方案 的 可 行 性 ， 或 者 尝 
试 采用 自动 化 部 署 工具 或 相关 工具 等 。2009 年 ，National Instruments 发 布 了 Hosted LabVIEW。 
这 便 是 一 个 DevOps 绿地 项 目 。National Instruments 是 一 家 具有 30 年 历史 的 老牌 企业 , 拥有 5000 
名 员工 , 年 营业 额 达 10 亿美 元 。 为 了 使 Hosted LabVIEW 快速 上 市 , 该 公司 组 建 了 一 个 新 的 团队 ， 
并 允许 该 团队 在 现 有 的 IT 流程 之 外 运作 ， 同 时 探索 公有 云 的 使 用 。 最 初 的 团队 成 员 包 括 一 名 应 
用 架构 师 、 一 名 系统 架构 师 、 两 名 开发 人 员 、 一 名 系统 自动 化 开发 人 员 、 一 名 运 维 负 责 人 和 两 名 
海外 运 维 人 员 。 通 过 应 用 DevOps 实践 ， 团 队 交 付 产 品 的 周期 比 平常 缩短 了 一 半 时 间 。 

DevOps 标 地 项 目 是 指 那些 已 经 服务 客户 长 达 几 年 甚至 几 十 年 的 产品 或 服务 。 这 种 项 目 通常 
背负 大 量 的 技术 债务 , 璧 如 无 自动 化 测试 、 运 行 在 无 人 维护 的 平台 上 等 。 在 Nordstrom 的 案例 中 ， 
店内 餐厅 系统 和 电子 商务 系统 都 是 棕 地 项 目 。 
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虽然 很 多 人 认为 DevOps 主要 面向 绿地 项 目 ， 但 成 功 应 用 DevOps 进行 转型 的 棕 地 项 目 比 比 
皆 是 ,事实 上 ,在 2014 年 DevOps 企业 峰会 上 分 享 的 转型 案例 中 , 标 地 项 目 所 占 的 比例 超过 60%。 
在 转型 前 ， 这 些 项 目的 产品 或 服务 与 客户 需求 存在 巨大 差异 ， 而 DevOps 转型 为 它们 创造 了 巨大 
的 业务 价值 。 


实际 上 ，Puppet Labs 的 《2015 年 DevOps 现状 报告 》 通 过 调查 数据 指出 ,应 用 的 年 龄 并 不 是 影 
响 性 能 的 主要 因素 ; 相反 , 性 能 取决 于 应 用 架构 在 当前 ( 或 重 构 后 ) 是否 具 有 可 测试 性 和 可 部 署 性 。 


维护 棕 地 项 目的 团队 可 能 非常 愿意 尝试 DevOps， 尤 其 在 他 们 认为 传统 方法 无 法 实现 当前 目 
标的 情况 下 (特别 是 当 优化 已 经 迫在眉睫 时 ) "。 


棕 地 项 目 在 转型 时 可 能 会 面临 巨大 的 阻碍 , 特别 是 没有 自动 化 测试 , 或 者 紧 而 合 架 构 导 致 团 
队 无 法 独立 开发 、 测 试 和 部 署 。 本 书 各 章 都 会 讨论 如 何 解 决 这 些 问 题 。 


以 下 是 两 个 成 功 转 型 的 柠 地 项 目 案例 。 


口 CSG 国际 : 2013 年 ，CSG 国际 的 营 收 为 7.47 亿美 元 ， 员 工 数量 超过 3500， 其 计 费 服务 
涉及 9 万 多 名 客服 人 员 ， 面 向 5000 多 万 客户 提供 视频 、 语 音 和 数据 计 费 服务 ， 总 交易 次 
数 超过 60 亿 ， 每 月 打印 和 邮寄 的 纸 质 账单 超过 7000 万 张 。CSG 国际 最 初 的 改进 对 象 是 
其 票据 打印 系统 。 票 据 打 印 是 公司 的 一 项 主要 业务 , 该 系统 涉及 一 个 通过 COBOL 开发 的 
大 型 机 应 用 和 20 个 相关 技术 平台 。 作 为 转型 的 一 部 分 ， 公 司 开 始 每 天 都 在 类 生产 环境 中 
进行 部 署 ， 并 将 发 布 频率 提高 了 一 倍 , 从 每 年 2 次 增加 到 4 次。 通过 这 些 措 施 ， 公司 显著 
地 提升 了 应 用 的 可 靠 性 ， 同 时 将 代码 部 署 时 间 从 两 周 缩短 为 不 到 一 天 。 

口 Etsy: 2009 年 ，Etsy 仅 有 35 名 员工 ， 创 造 了 8700 万 美元 的 年 收入 。 但 是 ， 每 当 在 节 假 
日 零售 高 峰 期 间 ，Etsy 就 需要 吃力 地 处 理 蜂 拥 而 至 的 订单 。 因 此 ， 公 司 开始 彻底 实施 转 
型 ， 并 最 终 成 为 最 杰出 的 DevOps 公司 之 一 ， 也 为 2015 年 的 IPO 成 功 黄 定 了 基础 。 
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5.2 兼顾 记录 型 系统 和 交互 型 系统 


高 德 纳 公 司 近年 来 帮助 双 模 IT (bimodal IT ) 这 一 概念 得 到 普及 。 双 模 IT 指 的 是 企业 能 够 支 
持 各 种 类 型 的 服务 演进 。 在 双 模 IT 中 ， 传 统 的 记录 型 系统 是 指 类 似 于 ERP 的 系统 (例如 MRP 
系统 、 人 力 资 源 系统 、 财 务 报表 系统 等 )， 它 的 交易 和 数据 的 正确 性 是 至 关 重要 的 ; 交互 型 系统 
则 是 指 面向 客户 或 员工 的 可 交互 系统 ， 例 如 电子 商务 系统 和 办 公 软 件 。 


记录 型 系统 的 变化 速度 通常 较 慢 ， 并 且 有 监管 和 合 规 性 要 求 〈 例 如 SOX )。 高 德 纳 公司 称 这 
种 系统 为 “类 型 1”， 侧 重 于 “做 得 正确 ”。 






































@ 那些 潜在 商业 利益 最 大 的 服务 系统 都 是 棕 地 系统 ， 这 并 不 足 为 奇 ， 毕 竞 它们 是 最 受 依赖 的 系统 ， 因 为 它们 拥有 大 
量 的 既 有 客户 和 高 额 的 收入 。 
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交互 型 系统 的 变化 速度 通常 较 快 , 因为 它 需 要 快速 响应 反馈 , 通过 实验 找到 最 能 满足 客户 需 
求 的 方式 。 高 德 纳 公司 称 这 种 系统 为 “类 型 2”， 侧 重 于 “做 得 快速 ”。 


进行 这 样 的 划分 也 许 能 够 带 来 便利 ， 但 在 “做 得 正确 ”与 “做 得 快速 ”之 间 长 期 存在 矛盾 ， 
而 DevOps 可 以 有 效 地 解决 这 个 矛盾 。Puppet Labs 的 报告 根据 精益 制造 的 经 验 教训 指出 ， 高 绩效 
组 织 能 够 兼顾 高 水 平 的 生产 能 力 和 可 靠 性 。 


此 外 , 由 于 各 个 系统 相互 依赖 , 因此 对 其 中 任 一 系统 的 改变 都 受 限 于 最 难 改变 的 系统 ( 这 往 
往 就 是 记录 型 系统 )。 


CSG 国际 的 产品 开发 副 总 裁 Scott Prugh 曾 说 :“ 我 们 拒绝 采用 双 模 IT,， 因 为 每 一 位 客户 都 应 
同时 享有 速度 和 质量 。 这 意味 着 团队 必须 追求 技术 章 越 ,不管 系统 是 有 30 年 历史 的 大 型 机 应 用 ， 
还 是 Java 应 用 ， 抑 或 是 移动 端 应 用 。 


因此 , 在 改进 棕 地 系统 时 ， 不 但 要 努力 降低 复杂 性 ， 提 高 可 靠 性 和 稳定 性 ， 而 且 还 应 该 将 系 
统 变 得 更 快 、 更 安全 、 更 容易 变更 。 即 使 只 是 为 绿地 交互 型 系统 增加 新 功能 ， 也 常常 会 给 所 依赖 
的 棕 地 记录 型 系统 带 来 可 靠 性 问题 。 使 下 游 的 系统 能 够 进行 更 安全 的 变更 , 可 以 帮助 整个 组 织 
快速 、 更 安全 地 实现 目标 。 
























































5.3 ”从 最 乐于 创新 的 团队 开始 


在 每 一 个 组 织 中 , 不同 的 团队 或 个 人 都 会 对 创新 持 有 不 同 的 态度 。Geoffrey A. Moore 曾经 在 
《跨越 鸿沟 》 一 书 中 用 曲线 描绘 了 这 种 现象 。 所 谓 跨越 鸿沟 ， 是 指 克 服 困 难 并 找到 比 创新 者 和 早 
期 采用 者 ( 见 图 5-1 ) 更 大 的 群体 。 
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中期 从 众 省 晚期 从众 兴 


实用 主义 除尘 主义 省 ) 
“顺应 潮流 ” “经 过 验证 才 行 ” 






































沙 后 者 
(怀疑 论 者 ) 
“坚决 说 不 ” 





2.5% 13.5% 34% 34% 16% 
时 间 
图 5-1 技术 采用 曲线 
(来 源 :《 跨越 鸿沟 》) 
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换 句 话说 ， 创 新 者 和 早期 采用 者 往往 能 迅速 接受 新 的 想法 ， 而 其 他 人 则 较为 保守 (这些 人 又 
可 分 为 早期 从 众 者 、 晚 期 从 众 者 和 落后 者 )。 我 们 的 目标 是 找到 那些 相信 DevOps 原则 和 实践 ， 
并 有 意愿 和 能 力 对 现 有 流程 进行 创新 和 改进 的 团队 。 在 理想 情况 下， 这些 群 体 将 是 DevOps 转型 
的 拥 征 。 


我 们 不 会 花费 太 多 时 间 去 改变 保守 的 群体 ,特别 是 在 早期 阶段 。 相 反 ,应 该 把 精力 集中 在 能 
创造 成 功 且 愿意 承担 风险 的 团队 上 ， 并 以 此 为 基础 慢 慢 扩大 范围 (下 一 节 将 讨论 这 个 过 程 ) 即 
使 取得 了 最 高 层 的 支持 ， 也 要 避免 使 用 “大 爆炸 ”的 方式 ( 即 遍地 开花 式 的 开始 )， 而 应 该 将 精 
力 集中 于 少数 几 个 试点 领域 ， 确 保 它们 取得 成 功 ， 然 后 再 逐步 扩展 "。 







































































5.4 扩大 DevOps 的 范围 


不 管 如 何 选 定 切 人 点 ， 都 要 尽早 展示 成 果 , 并 积极 宣传 。 将 大 的 改进 目标 分 解 成 渐进 式 的 小 
步骤 。 这 样 做 不 但 能 提高 改进 速度 ， 还 可 以 在 错误 选择 价值 流 后 及 早 发 现 。 通 过 及 早 发 现 错误 ， 
团队 可 以 快速 回 深 和 重 试 ， 并 根据 新 的 经 验 做 出 不 同 的 决定 。 


基于 已 经 取得 的 成 功 ， 逐步 扩 大 DevOps 计划 的 应 用 范围 。 遵 循 低 风 险 的 顺序 ， 有 条 不 率 地 
提高 可 信和 度 和 影响 力 ， 并 获取 支持 。 以 下 列表 整理 自 麻 省 理工 学 院 管理 学 教授 Roberto Fermnandez 
博士 的 课程 ， 介 绍 了 当 推 进 变 革 时 ， 如 何 基于 已 获得 的 文 持 扩 大 影响 。 


(1) 发 现 创新 者 和 早期 采用 者 : 一 开始 ， 把 重点 放 在 真正 有 意愿 改进 的 团队 上 。 这 些 同事 与 
我 们 志同道合 ， 他 们 是 探索 DevOps 的 第 一 批 志愿 者 。 这 些 同事 最 好 受 人 尊重 ， 并 对 组 织 中 的 其 
他 人 有 着 很 大 的 影响 力 。 他 们 的 支持 有 助 于 提升 创新 的 可 信 度 。 


(2) 赢得 沉默 的 大 多 数 : 在 下 一 阶段 , 力求 将 DevOps 实践 扩展 到 更 多 的 团队 和 价值 流 ,目标 
是 建立 更 稳固 的 群众 基础 。 通过 与 接受 DevOps 的 团队 合作 , 即便 他 们 并 不 是 最 有 影响 力 的 团队 ， 
也 能 对 扩大 群众 基础 有 所 帮助 。 有 了 更 多 的 成 功 之 后 ， 就 会 产生 从 众 效应 ， 进 一 步 增强 影响 力 。 
需要 谨慎 避免 与 唱 反 调 的 人 发 生 冲 突 。 


(3) 识别 “钉子 户 ”: 所 谓 “ 钉 子 户 ”， 是 指 那 些 高 调 的 、 有 影响 力 的 反对 者 。 他 们 最 有 可 能 
抵制 (其 至 破坏 ) DevOps 计划 。 一 般 来 说 ， 只 有 在 获得 大 多 数 人 的 支持 并 建立 起 足够 稳固 的 群 
众 基础 后 ， 才 考虑 如 何 应 对 这 个 群体 。 


在 组 织 内 全 面 实施 DevOps 绝 非 易 事 。 转 型 可 能 会 给 个 人 .部门 和 整个 组 织带 来 风险 .Ron van 
Kemenade 是 ING 集团 的 首席 信息 官 , 帮助 该 集团 成 功 转型 为 广 为 人 赞 的 技术 组 织 。 他 说 过 :“ 变 


























































































































Q@ 自 上 而 下 的 大 爆炸 式 转 型 也 不 是 不 可 能 ,PayPal 在 2012 年 的 敏捷 技术 转型 就 是 如 此 ,由 技术 副 总 裁 Kirsten Wolberg 
亲自 主导 。 不 过 ， 和 任何 可 持续 的 成 功 转型 一 样 ， 这 种 转型 需要 得 到 最 高 层 的 支持 ， 而 且 需 要 持续 不 断 地 追求 各 
个 阶段 必需 的 成 果 。 
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革 需 要 勇气 ， 尤 其 是 当 有 人 不 断 地 挑战 和 抵制 你 的 时 候 。 但 如 果 从 小 处 做 起 ， 就 没什么 可 怕 的 。 
任何 领导 者 都 需要 勇于 分 配 团队 在 可 控 的 范围 内 冒 一 些 险 。 


























5.5 ”小结 





管理 学 大 师 德 鲁 元 说 过 :“ 人 小 鱼 在 小 池塘 里 成 为 大 鱼 。” 通过 谨慎 地 选择 DevOps 转型 的 切入 
点 , 我 们 在 组 织 的 某 些 领域 内 进行 实验 、 学 习 并 创造 价值 , 但 不 会 给 整个 组 织带 来 不 可 逆 的 后 果 。 
同时 ,通过 这 种 方式 ， 我 们 能 够 建立 稳固 的 群众 基础 ， 启 得 在 组 织 中 推广 DevOps 的 机 会 ， 从 而 
获得 更 多 支持 者 的 认可 和 感激 。 
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理解 、 可 视 化 和 运用 价值 流 








一 旦 确定 要 应 用 DevOps 原则 和 模式 的 价值 流 后 ， 就 要 深刻 理解 如 何 向 客户 交付 价值 : 做 什 
么 工作 ? 谁 来 做 ? 该 采取 什么 措施 改善 流程 ? 


上 一 章 讲 述 了 Nordstrom 的 Courtney Kissler 领导 团队 实施 DevOps 转型 的 案例 。Courtney 
Kissler 和 同事 根据 多 年 的 经 验 总 结 出 一 个 开始 优化 价值 流 的 有 效 方法 , 就 是 和 所 有 核心 干系 人 一 
起 演练 价值 流 映 射 , 从 而 帮助 团队 梳理 出 创造 价值 的 所 有 步 又 ( 本章 后 面 会 介绍 这 个 演练 过 程 )。 


Courtney Kissler 常用 一 个 例子 来 说 明 价值 流 映射 的 益处 。 当 时 , 她 的 团队 尝试 缩短 化 妆 品 业 
务 管理 系统 的 请 求 处 理 周期 。 该 系统 是 一 个 COBOL 大 型 机 应 用 ,为 化 妆 品 部 的 所 有 门店 经 理 提 
供 业务 支持 。 


该 应 用 帮助 门店 经 理 管理 各 条 产品 线 的 销售 人 员 , 跟踪 销售 提成 情况 , 办理 供应 商 折扣 相关 
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以 下 是 Courtney Kissler 的 描述 。 


我 对 这 个 大 型 机 应 用 非常 熟悉 ,因为 在 我 刚 入 职 的 时 候 ， 就 为 它 的 技术 团队 提供 过 
支持 。 近 10 年 来 ， 每 当 开 年 度 规划 会 议 时 ， 我 们 都 在 讨论 如 何 让 这 个 系统 迁移 出 大 型 
机 环境 。 当 然 ， 和 大 多 数组 织 一 样 ， 即 使 是 在 得 到 管理 层 全 面 支 持 的 情况 下 ， 我 们 也 没 
能 实施 迁移 。 


我 的 团队 想 尝 试 通过 价值 流 映射 演练 来 判断 这 个 COBOL 应 用 是 否 真 的 存在 问题 ， 
或 者 还 有 什么 更 大 的 问题 需要 解决 。 于 是 , 我们 和 所 有 干系 人 ( 包括 业务 合作 伙伴 、 大 
型 机 团队 、 共 享 服务 团队 等 ) 一 起 举办 了 一 场 研 讨 会 。 


我 们 发 现 ， 当 门店 经 理 提 交 “ 产 品 线 分配 ” 请 求 表单 时 ， 系统 要 求 他 们 输入 员工 编 
号 ,但 大 部 分 情况 下 他 们 并 不 知道 编号 信息 ,所 以 会 让 那 一 栏 空 着 或 者 填写 “我 不 知道 ”。 
更 糟糕 的 是 ,为 了 填写 这 个 表单 ,门店 经 理 不 得 不 离开 店面 ， 回 到 办 公 室 使 用 计算 机 完 
成 提交 ， 结 果 导 致 大 部 分 时 间 都 浪费 在 两 头 奔波 中 。 
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在 研讨 会 期 间 , 参与 者 尝试 了 多 个 解决 方案 , 包括 删除 表单 中 的 员工 编号 字段 ， 以 及 让 另 一 
个 部 门 在 随后 的 处 理 环 节 里 获取 该 信息 。 在 门店 经 理 的 参与 下 , 这些 尝 试 发 现 , 请求 处 理 时 间 缩 
短 了 4 天 。 后 来 , 团队 用 iPad 应 用 替换 了 PC 应 用 。 这 样 一 来 ， 门 店 经 理 不 需要 离开 店面 就 可 以 
直接 提交 信息 ， 请 求 处 理 时 间 因 而 进一步 缩短 到 数秒 。 


Courtney Kissler 自 府 地 说 :“ 看 到 成 效 之 后 ， 再 也 没有 人 要 求 把 应 用 迁移 出 大 型 机 环境 了 。 
而 且 , 其 他 部 门 的 业务 主管 知道 这 件 事后 ,都 纷纷 向 我 们 表达 了 希望 能 一 起 探讨 优化 方案 的 想法 。 
业务 团队 和 技术 团队 的 每 个 成 员 都 兴奋 不 已 , 因为 他 们 实 实在 在 地 解决 了 业务 问题 ,更 重要 的 是 ， 
他 们 在 这 个 过 程 中 得 到 了 成 长 。” 

本 章 接 下 来 将 探讨 以 下 步骤 : 确定 创造 客户 价值 所 需 的 团队 ; 绘制 价值 流 图 ， 把 必要 的 工作 


可 视 化 ; 以 价值 流 图 为 导向 ， 帮助 团队 更 好 、 更 快速 地 创造 客户 价值 。 通 过 使 用 这 些 方法 ,我 们 
就 可 以 复制 Nordstrom 的 成 功 。 




































































6.1 确定 创造 客户 价值 所 需 的 团队 


Nordstrom 的 故事 说 明 ， 无 论 价值 流 的 复杂 程度 如 何 ， 其 中 都 没有 一 个 人 能 够 知道 为 客户 创 
造价 值 所 要 做 的 每 一 项 工作 ， 尤 其 是 当 工 作 由 多 个 团队 完成 时 。 这 些 团 队 往 往 属于 不 同 的 部 门 ， 
甚至 不 在 同一 个 办 公 地 点 ， 考 核 方 式 也 不 同 。 


因此 ， 在 选择 好 DevOps 试点 应 用 或 服务 后 ， 必 须 确定 价值 流 的 所 有 成 员 ， 他 们 有 责任 共同 
为 客户 创造 价值 。 一 般 来 说 ， 包 括 以 下 这 些 成 员 。 


口 产品 负责 人 : 作为 业务 方 的 代言 人 ， 定 义 系统 需要 实现 的 功能 。 

口 开发 团队 : 负责 开发 系统 功能 。 

口 QA 团队 : 给 开发 团队 提供 反馈 ， 并 确保 系统 功能 符合 需求 。 

口 运 维 团 队 : 负责 维护 生产 环境 ， 并 确保 系统 能 够 良好 地 运行 。 

口 信息 安全 团队 : 负责 系统 和 数据 的 安全 。 

口 发 布 经 理 : 负责 管理 和 协调 生产 环境 部 署 以 及 发 布 流程 。 

口 技术 主管 或 价值 流 经 理 :( 根据 精益 方法 论 的 定义 ) 负责 “从 始 至 终 地 保障 价值 流 的 产 出 
满足 或 超出 客户 ( 和 组 织 ) 期 望 ”。 












































6.2 ”针对 团队 工作 绘制 价值 流 图 


确定 了 价值 流 的 相关 成 员 之 后 ,下 一 步 是 深入 理解 工作 方式 , 并 用 价值 流 图 进行 记录 。 在 价 
值 流 中 ,最 初 的 工作 是 确定 客户 需求 或 进行 业务 构思 , 这 由 产品 负责 人 完成 ; 然后 ,开发 团队 接 
手 ， 他 们 通过 编程 实现 相关 功能 ， 并 将 代码 提交 到 版 本 控制 系统 中 ; 接 下 来 ,在 类 生产 环境 中 对 
功能 进行 集成 和 测试 ， 最 后 部 署 到 〈 理想 情况 下 ) 能 为 客户 创造 价值 的 生产 环境 中 。 
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在 许多 传统 组 织 中 ,上 述 价值 流 可 能 需要 数 百人 参与 , 包含 成 百 上 千 个 步骤 。 由 于 绘制 这 种 
复杂 的 价值 流 图 需要 好 几 天 ,因此 可 以 召集 所 有 关键 成 员 ， 让 他 们 暂停 日 常 工作 , 来 参加 持续 几 
天 的 研讨 会 。 


绘制 价值 流 图 的 目标 并 不 是 记录 所 有 的 步骤 和 细节 ， 而 是 识别 出 阻碍 价值 流 快速 流动 的 环 
节 ， 从 而 缩短 前 置 时 间 和 提高 可 靠 性 。 在 理想 情况 下 ,参与 研讨 会 的 成 员 应 该 有 权力 改变 各 自负 
责 的 部 分 "。 


Damon Edwards 是 播客 节目 DevOps Café 的 主持 人 之 一 。 他 是 这 样 描述 的 :“ 根 据 我 的 经 验 ， 
这 样 的 价值 流 映射 演练 总 是 让 人 大 开眼 界 。 很 多 人 通常 是 第 一 次 看 到 , 为 了 向 客户 交付 价值 ,到 
底 需 要 完成 多 少 工作 。 对 于 运 维 团 队 而 言 ， 他 们 可 能 第 一 次 看 到 ， 当 开发 人 员 无 法 获得 正确 配置 
的 环境 时 所 产生 的 后 果 ， 以 及 由 此 引发 的 更 多 的 部 署 工 作 。 对 于 开发 团队 而 言 ， 他 们 可 能 第 一 次 
看 到 , 在 自己 把 特性 标记 为 “完成 ”之 后 , 仍然 要 满足 测试 和 运 维 方面 的 许多 要 求 才 能 把 代码 部 
署 到 生产 环境 中 。” 


根据 价值 流 参与 团队 所 提供 的 全 部 信息 ， 应 该 重点 分 析 和 优化 下 面 两 类 工作 : 


口 需要 等 待 数 周 甚至 数 月 的 工作 ,例如 准备 类 生产 环境 、 变 更 审批 流程 或 安全 审查 流程 等 ; 
口 引发 或 处 理 重大 返工 的 工作 。 


价值 流 图 的 初始 版 本 应 该 只 包含 重要 的 流程 模块 。 即 使 是 针对 复杂 的 价值 流 , 参与 小 组 通常 
也 可 以 在 几 个 小 时 内 绘制 出 包含 5~ 15 个 模块 的 价值 流 图 。 每 个 模块 至 少 应 包括 工作 项 的 前 置 时 
间 和 处 理 时 间 ( 分别 为 图 6-1 中 的 LT 和 VA2 )， 以 及 由 下 游 消 费 者 测量 的 %C/AS2 。 


价值 流 图 中 的 度量 指标 可 用 于 指导 改进 工作 。 在 Nordstrom 的 案例 中 ， 他 们 关注 门店 经 理 在 
提交 请 求 表单 时 的 低 %C/A ， 因 为 缺少 员工 编号 信息 。 其 他 的 情况 可 能 是 ， 当 为 开发 团队 搭建 和 
配置 测试 环境 时 ， 前 置 时 间 较 长 或 %C/A 较 低 ; 或 者 在 每 个 软件 版 本 发 布 前 ， 执 行 和 通过 回归 测 
试 的 前 置 时 间 较 长 。 

一 旦 确定 了 想 要 改进 的 度量 指标 , 就 可 以 进入 分 析 和 度量 的 下 一 阶段 ,以 便 更 好 地 理解 问题 。 
然后 ， 绘 制 理想 化 的 价值 流 图 ， 并 以 此 作为 下 一 阶段 (例如 ， 通常 3~ 12 个 月 ) 的 改进 目标 。 

领导 者 帮助 确定 改进 目标 ,并 指导 团队 就 假设 和 措施 集思广益 , 通过 实验 探索 各 种 假设 ， 然 
后 分 析 结 果 ， 以 判断 假设 是 否 正 确 。 通 过 不 断 地 重复 和 迭代 ,团队 把 新 获得 的 经 验 用 于 下 一 次 实 
验 和 验证 。 





































































































































































































a 限制 信息 的 细节 程度 非常 重要 ， 毕 竞 每 个 人 的 时 间 都 很 宝贵 。 

@ 在 有 些 情 况 下 ， 处 理 时 间 也 叫 作 增值 时 间 ( Value Added Time )。 一 一 编者 注 

@ 相反 ， 也 有 许多 使 用 了 工具 而 自身 的 行为 并 没有 发 生 任何 改变 的 例子 ， 例 如 ， 一 个 组 织 决定 开始 使 用 敏捷 规划 工 
具 ， 但 将 其 用 于 瀑布 式 流程 ， 那 几乎 只 能 维持 现状 。 
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客户 需求 il 设计 5 全- 自己 i 
到 本 -$l i 




















LT:2 周 %C/A: 60% 工作 积压 %C/A: 60% %C/A: 80% 
VA:2 天 LT 1 周 LT: 2 周 LT: 1 周 LT 1 周 
VA: 2 小 时 VA: 1 小 时 VA: 4 天 
探索 测试 与 
性 能 测试 
7 w%CAT5% AN 
国 去 5 人 $ 一 Bm 验证 是 否 达到 
验收 测试 \、 VA: 1 天 7 部 署 客户 预期 
%C/A: 50% 入 人间 %C/A: 80% %C/A: 30% 
LT:1 周 变更 i LT 1 小 时 LT 3 天 
VA: 1 小 时 审批 VA: 0 小 时 VA: 0 小 时 
%C/A: 90% 
LT 1 周 
VA: 1 小 时 
数值 汇总 : 
监 前 咒 时 间 LT，10 周 
时 间 VA 且 :7.5 大 


心 
综合 WC/A: 8.6% 


图 6-1 价值 流 图 示例 
(来 源 :《 精 益 企 业 》2 ) 





6.3 组 建 专门 的 转型 团队 


DevOps 转型 面临 的 一 个 固有 挑战 是 与 公司 当前 的 业务 发 生 冲 突 ， 这 不 可 避免 ， 而 且 是 公司 
成 功 发 展 的 自然 结果 。 任 何 一 个 成 功 运作 多 年 〈 几 年 、 几 十 年 甚至 几 百 年 ) 的 组 织 都 已 经 建立 了 
符合 自身 的 实践 和 运行 机 制 ， 例 如 产品 开发 、 订 单 管理 和 供应 链 运营 等 。 


同时 , 公司 还 采取 各 种 措施 延续 和 保护 当前 的 运作 流程 , 例如 专业 化 、 注 重 效率 和 可 重复 性 、 
执行 审批 流程 以 及 防止 差异 。 


虽然 这 对 维持 现状 很 有 好 处 , 但 为 了 适应 市 场 的 变化 , 往往 需要 改变 工作 方式 。 这 需要 颠 履 
和 创新 ， 必 然 会 和 当前 负责 日 常 业 务 和 内 部 流程 的 群体 产生 冲突 ， 而 且 后 者 往往 会 胜出 。 


Vijay Govindarajan 博士 和 Chris Trimble 博士 都 是 达 特 茅 斯 学 院 塔 克 商 学 院 的 教授 。 他 们 曾 在 
The Other Side of Innovation: Solving the Execution Challenge 一 书 中 描述 了 如 何 打破 日 常 运作 的 惯 
性 ， 实 现 颠 覆 性 创新 。 他 们 记录 了 Allstate 如 何 成 功 开发 和 销售 以 客户 为 导向 的 汽车 保险 产品 ， 
《华尔街 日 报 》 如 何 创造 错 利 的 数字 出 版 业务 ，Timberland 如 何 开发 颇具 新 意 的 越野 跑鞋 ， 以 及 
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@D 图 中 的 增值 时 间 VA 在 有 些 工作 环节 里 为 0, 这 并 不 意味 着 处 理 时 间 为 0, 而 是 指 此 项 工作 对 于 客户 和 价值 流 来 说 
并 不 增值 。 一 一 译 者 注 
@ 关 于 《精益 企业 》 详 见 http://www.ituring.com.cn/book/1544。 一 一 编者 注 
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宝马 公司 如 何 开发 第 一 辆 电动 汽车 。 


两 位 博士 的 研究 成 果 表 明 ,应 该 组 建 专门 的 转型 团队 ,并 使 之 独立 于 负责 日 常 运作 的 部 门 (他 
们 称 前 者 为 “专职 团队 ”， 称 后 者 为 “绩效 引擎”)。 


最 重要 的 是 ， 这 个 团队 应 该 负责 实现 明确 定义 的 、 可 度量 的 、 系 统 级 的 目标 (例如, 将 “从 
提交 代码 到 部 署 至 生产 环境 ”这 一 过 程 的 前 置 时 间 减 少 50% )。 为 了 做 到 这 一 点 ， 应 该 采取 以 下 
措施 : 


口 转型 团队 的 成 员 专 门 执行 DevOps 转型 工作 ( 而 不 是 让 他 们 继续 做 之 前 的 工作 ， 但 要 花 
20% 的 时 间 来 做 DevOps 转型 ); 

口 选择 熟悉 多 个 领域 的 通才 作为 团队 成 员 ; 

口 选择 与 其 他 部 门 长 期 保持 良好 关系 的 人 作为 团队 成 员 ; 

口 如 果 可 能 ， 为 团队 找 一 个 独立 的 办 公 区 域 ， 使 各 位 成 员 尽 可 能 多 地 相互 交流 ， 并 和 其 他 
部 门 保持 适当 的 距离 。 


如 果 可 能 ， 要 将 转型 团队 从 诸多 现 有 的 规则 和 规定 中 解放 出 来 ， 正 如 前 一 章 提 到 的 National 
Instruments 那样 。 毕 竞 ， 既定 的 流程 属于 一 种 群体 意识 。 专 门 的 转型 团队 需要 创建 新 的 流程 ， 从 
而 得 到 想 要 的 结果 ， 创 造 新 的 群体 意识 。 


ee 而 且 对 “绩效 引擎 ”也 有 好 处 。 通 过 让 独立 的 团 
队 尝 试 新 的 实践 ， 组 织 的 其 他 部 门 得 以 避免 创新 带 来 的 潜在 风险 。 

















































































































6.3.1 拥有 共同 的 目标 


任何 改进 计划 的 首要 内 容 都 是 为 未 来 6 个 月 到 2 年 设 定 可 度量 的 目标 。 为 了 实现 目标 , 团队 
需要 付出 相当 大 的 努力 ， 而 且 目 标的 实现 应 该 能 为 整个 组 织 和 客户 创造 出 显著 的 价值 。 


目标 和 时 限 应 由 管理 层 确 定 , 并 告知 组 织 中 所 有 的 人 。 而且, 应 该 限制 同时 开展 过 多 的 改进 
计划 ， 避 免 组 织 和 管理 层 负担 过 重 。 以 下 是 改进 目标 的 一 些 例 子 : 


口 把 用 于 产品 支持 和 计划 外 工作 的 预算 减少 50%; 

口 针对 95% 的 变更 ， 确 保 将 从 代码 提交 到 版 本 发 布 的 周期 缩短 为 一 周 ， 甚 至 更 短 ; 
口 确保 发 布 可 以 在 工作 时 段 进行 ， 并 且 服 务 不 中 断 ; 

口 把 所 有 信息 安全 验证 的 工作 集成 到 部 署 流水 线 中 ， 以 满足 必需 的 合 规 性 要 求 。 


一 旦 明确 了 整体 目标 ， 团 队 就 应 该 制订 改进 工作 的 详细 计划 与 节奏 。 像 产品 开发 工作 一 样 ， 
转型 工作 也 应 该 以 迭代 、 增 量 的 方式 进行 。 一 般 每 次 迭代 在 2 ~ 4 周 内 完成 。 对 于 每 次 迭代 ， 团 
队 应 该 制订 出 一 组 能 够 产生 价值 的 小 目标 , 并 朝 着 长 期 目标 靠近 。 在 每 次 迭代 结束 时 , 团队 应 该 
检查 进度 ， 并 为 下 一 次 迭代 设 定 新 的 目标 。 
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6.3.2 ”保持 小 跨度 的 改进 计划 


在 任何 DevOps 转型 项 目 中 ， 都 需要 保持 小 跨度 的 改进 计划 ， 正 如 创业 公司 做 产品 开发 或 客 
户 开发 一 样 。 应 该 努力 在 数 周 内 ( 最 差 也 应 该 在 数 月 内 ) 获 得 可 度量 的 改进 成 果 或 者 可 用 的 数据 。 


通过 缩短 计划 跨度 和 和 迭代 间隔 ， 可 以 做 到 以 下 几 点 : 


口 具备 重新 计划 和 更 改 优先 级 的 能 力 和 灵活 性 ; 

口 减少 工作 从 实施 到 生效 的 延迟 时 间 ， 从 而 加 强 反馈 回路 ， 这 将 更 有 可 能 强化 期 望 的 行为 一 一 
初步 成 功 有 利于 加 大 投入 ; 
口 从 多 代 中 更 快 地 获得 经 验 ， 并 将 其 用 于 下 一 次 迭代 ; 
口 能 够 更 省 力 地 获得 改进 ; 

口 在 日 常 工 作 中 更 快 地 实现 有 意义 的 差异 化 改进 ; 

口 降低 项 目 还 没有 取得 成 果 就 被 终止 的 风险 。 





























6.3.3 ”为 非 功能 性 需求 预 留 20% 的 开发 时 间 ， 减 少 技术 债务 


如 何 合理 地 设置 优先 级 是 流程 改进 工作 的 一 个 常见 问题 。 毕 竟 , 急需 改进 流程 的 组 织 大 多 没 
有 足够 的 时 间 。 技 术 组 织 则 更 其 ， 因 为 他 们 还 需要 偿还 技术 债务 。 


当 背 负 沉 重 的 金融 债务 时 , 组 织 只 能 还 利息 ， 从 来 都 无 法 偿还 贷款 本 金 ， 而 且 很 有 可 能 陷入 
连 利息 都 还 不 起 的 容 境 。 同 样 ， 无 法 还 清 技 术 债 务 的 组 织 也 会 发 现 , 在 日 常 工作 中 , 应 付 老 问 题 
已 经 让 自己 不 堪 重 负 ， 根 本 无 法 开展 新 的 工作 。 换 名 话说 ,这些 组 织 目前 仅仅 是 支付 技术 债务 的 
利息 而 已 。 


为 了 积极 地 管理 技术 债务 ， 要 确保 至 少 把 20% 的 开发 和 运 维 时 间 投 入 到 重 构 、 自 动 化 工作 、 
架构 优化 以 及 非 功 能 性 需求 (有 时 也 称 为 “质量 属性 ”) 上 ， 例 如 可 维护 性 、 可 管理 性 、 可 扩展 
性 、 可 靠 性 、 可 测试 性 、 可 部 署 性 和 安全 性 等 ( 见 图 6-2 )。 


20 世纪 90 年 代 后 期 ，eBay 有 一 次 死 里 逃生 的 经 历 。 之 后 ，Marty Cagan" 写 下 了 关于 产品 设 
计 和 管理 的 重要 著作 《启示 录 : 打造 用 户 喜 爱 的 产品 》 他 总 结 了 以 下 内 容 : 


产品 负责 人 和 工程 师 之 间 的 协作 是 这 样 的 :产品 负责 人 需要 考虑 把 团队 20% 的 资源 
分 配给 与 工程 相关 的 活动 ， 用 于 重 写 或 重 构 代码 库 中 有 问题 的 部 分 , 或 者 工程 师 认 为 有 
必要 改进 的 部 分 ， 从 而 避免 有 一 天 他 们 对 团队 说 :“ 我 们 需要 停 下 来 重 写 所 有 代码 。” 如 
果 情 况 已 经 非常 粮 粒 了 ， 那 就 可 能 需要 投入 30% 其 至 更 多 的 资源 。 然 而 ,如果 发 现 团队 
认为 他 们 不 需要 20% 的 资源 就 能 做 这 些 事情 ， 我 会 感到 非常 担心 。 







































































QD Marty Cagan 曾 任 eBay 产品 与 设计 高 级 副 总 裁 。 一 一 编者 注 
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用 户 可 见 用 户 不 可 见 


架构 、 非 功能 | 
正面 价值 需求 ”流程 改进 


负面 价值 

















图 6-2 ”将 20% 的 时 间 用 于 创造 用 户 不 可 见 的 正面 价值 

(来 源 : 播客 Software Engineering Daily 于 2015 年 11 月 17 日 播 出 的 节目 “D. Sculley 的 机 器 学 习 和 技术 债务 ”7 ) 

Marty Cagan 指出 ， 如 果 组 织 不 愿意 支付 这 “20% 的 税 ”， 那 么 技术 债务 将 会 最 终 恶化 到 耗 尽 
所 有 可 用 资源 的 程度 。 终 有 一 天 ， 服 务 会 变 得 不 堪 一 击 ， 特 性 交付 将 停 沸 不 前 ， 所 有 工程 师 都 在 
解决 可 靠 性 问题 或 者 寻求 临时 方案 。 

通过 这 20% 的 投入 ， 开 发 人 员 和 运 维 人 员 可 以 为 日 常 工作 中 所 遇 到 的 问题 提供 长 久 的 对 策 ， 
并 保证 技术 债务 不 会 妨碍 快速 、 安 全 地 开发 和 和 运营。 同时 ,， 绥 解 员工 的 技术 债务 压力 也 可 以 降低 
工作 倦 念 程度 。 


















































* 案例 研究 * 
Linkedln 的 “ 反 转 行动 ”(2011 年 ) 


LinkedIn 的 “ 反 转 行动 ”( Operation InVersion ) 是 一 个 有 趣 的 案例 ， 它 证 明了 为 什 
么 要 把 偿还 技术 债务 作为 日 常 工 作 的 一 部 分 。2011 年 ，LinkedIn 成 功 进行 了 IPO。 但 半 
年 过 去 了 ， 公 司 依 然 在 部 署 问题 上 苦 苦 挣 扎 。 于 是 ， 他 们 局 动 了 “ 反 转 行动 "， 在 两 个 
月 内 ， 停 止 所 有 特性 开发 ， 并 对 计算 环境 、 部 署 和 架构 进行 全 面 的 优化 。 

LinkedIn 成 立 于 2003 年 ， 其 目标 是 帮助 用 户 “ 建 立 社交 网 络 ， 以 获得 更 好 的 就 业 
机 会 "。 网 站 在 上 线 后 的 第 一 周 就 获得 了 2700 名 会 员 。 一 年 后 ， 会 员 数 超过 了 100 万 ， 
并 呈 指 数 级 增长 。 截 至 2015 年 11 月 ，LinkedIn 已 经 拥有 超过 3.5 亿 名 会 员 ， 用 户 每 秒 
产生 数 万 次 请 求 ， 后 台 系 统 每 秒 要 处 理 数 百 万 次 查询 。 


起 初 , LinkedIn 主要 运行 在 自己 开发 的 应 用 Leo 上 , 这 是 一 个 单 体 Java 应 用 ,通过 





QD http://softwareengineeringdaily.com/2015/11/17/machine-learning-and-technical-debt-with-d-sculley/ 
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servlet 服 务 每 个 页 面 ， 并 使 用 JDBC 连接 后 台 的 Oracle 数据 库 。 然 而 ， 早 年 为 了 跟 上 不 
断 激增 的 流量 , 团队 从 Leo 中 解 耦 了 两 个 关键 服务 : 一 个 是 在 内 存 中 处 理会 员 连 接 关系 
的 查询 ， 另 一 个 是 以 这 个 查询 为 基础 进行 会 员 搜 索 。 


截至 2010 年 ， 大 多 数 新 开发 的 特性 都 以 新 的 服务 部 署 ， 已 经 有 近 百 个 服务 独立 于 
Leo 运行 。 但 Leo 本 身 还 是 只 能 每 两 周 部 署 一 次 。 


LinkedIn 的 高 级 工程 经 理 Josh Clemm 说 ，Leo 在 2010 年 面临 重大 挑战 。 尽 管 使 用 
了 添加 内 存 和 CPU 的 重 直 扩容 方式 ,“ 但 在 生产 环境 中 ，Leo 还 是 会 经 常 盘 溃 ， 并 且 很 
难 进行 故障 排除 和 恢复 ， 发 布 新 特性 也 非常 困难 …… 很 显然 ， 我 们 需要 “终结 Leo”， 
并 将 它 拆 分 成 许多 个 有 一 定 功能 的 小 型 无 状态 服务 ”。 


Bloomberg 的 记者 Ashlee Vance 在 2013 年 描述 道 :“ 当 LinkedIn 试图 同时 发 布 许多 
新 特性 时 ， 网 站 经 常会 前 溃 ， 工 程 师 需要 加 班 到 深夜 去 解决 问题 .” 到 2011 年 秋天 ， 工 
程 师 对 挑灯 夜战 已 经 习以为常 。LinkedIn 的 一 批 顶 级 工程 师 ， 包 括 在 JIPO 前 3 个 月 加 入 
公司 的 工程 副 总 裁 Kevin Scott， 决 定 彻 底 停 止 新 特性 的 开发 工作 , 把 整个 部 门 投入 到 整 
顿 网 站 核心 基础 设施 中 去 ， 这 被 称 为 “ 反 转 行动 ”。 


Kevin Scott 发 起 “ 反 转 行动 ”的 目的 是 将 其 “作为 一 个 文化 宣言 注入 团队 文化 。 在 
LinkedIn 的 系统 架构 被 重 构 之 前 ,不 做 任何 新 特性 开发 一 一 这 是 公司 和 团队 需要 做 的 ”。 


他 这 样 描述 其 中 的 压力 :“ 上 市 以 后 ， 所 有 人 都 盯 着 我 们 ， 而 我 们 却 告诉 管理 层 ， 
所 有 的 工程 师 在 未 来 两 个 月 里 不 会 发 布 任何 新 特性 ， 他 们 要 全 身心 投入 “ 反 转 行动 。 
这 确实 是 一 件 很 恐怖 的 事情 。” 


然而 ，Ashlee Vance 却 描 述 了 “ 反 转 行动 ”的 巨大 成 果 :“LinkedIn 创建 了 一 整套 有 
助 于 代码 开发 的 软件 和 工具 。 从 那 以 后 ， 新 特性 不 再 需要 等 上 好 几 周 才能 上 线 。 在 工程 
师 开 发 完 一 个 新 服务 后 , 会 有 一 系列 的 自动 化 检查 机 制 ， 去 测试 它 与 现 有 特性 的 交互 是 
否 会 有 潜在 问题 ， 然 后 直接 将 其 发 布 到 LinkedIn 网 站 。 现在，LinkedIn 的 工程 师 每 天 将 
网 站 进行 3 次 重要 升级 。” 通过 建立 一 套 更 安全 的 工作 系统 ， 他 们 不 再 需要 挑灯 夜战 ， 
反而 有 了 更 多 的 时 间 开 发 富有 创意 的 新 特性 。 


Josh Clemm 在 提 到 LinkedIn 的 规模 化 时 写 道 :“ 规 模 化 的 效果 能 在 许多 维度 上 进行 
度量 ， 包 括 组 织 层 面 。“ 反 转行 动 ”使 整个 开发 部 门 都 专注 于 改进 工具 、 部 署 流程 、 基 
础 设施 和 开发 人 员 的 生产 力 。 它 成 功 地 实现 了 我 们 所 需 的 工程 敏捷 性 ,从 而 让 我 们 今天 
能 够 规模 化 地 构建 新 产品 。2010 年 , 我 们 已 经 有 超过 150 个 独立 的 服务 。 今天, 我 们 的 
服务 超过 750 个 。” 


Kevin Scott 说 :“ 不 管 是 个 人 目标 ， 还 是 团队 目标 ， 都 是 帮助 公司 盈利 。 如 果 你 有 
机 会 领导 工程 师 团 队 ， 最 好 从 CEO 的 角度 看 问题 ， 透 彻 理解 公司 、 业 务 、 市 场 、 竞 争 


6.4 用 工具 强化 预期 行为 47 





环境 需要 什么 ， 并 将 这 些 理解 应 用 到 你 的 团队 中 ， 帮 助 公司 赢得 市 场 。” 

通过 偿还 近 10 年 的 技术 债务 ，LinkedIn 的 “ 反 转 行动 ”实现 了 稳定 性 和 安全 性 ， 
同时 为 公司 下 一 阶段 的 成 长 黄 定 了 基础 。 然 而 ， 它 花费 了 两 个 月 处 理 非 功 能 性 需求 ， 并 
以 牺牲 在 IPO 时 向 市 场 承诺 的 特性 为 代价 。 通过 在 日 常 工作 中 发 现 和 解决 问题 , 能 有 效 
地 管理 技术 债务 ， 避 免 “ 背 水 一 战 ”。 


6.3.4 提高 工作 的 可 视 化 程度 


为 了 能 够 明确 团队 是 否 正 朝 着 既定 目标 前 进 ， 组 织 中 的 每 个 人 都 有 必要 了 解 当 前 的 工作 状 
态 。 将 状态 进行 可 视 化 的 方法 有 很 多 ,最 重要 的 是 有 效 展示 最 新 状态 ,而 且 要 不 断 修订 ， 以 确保 
团队 了 解 最 新 进展 。 


下 一 节 将 讨论 一 些 模 式 ， 帮 助 实现 跨 团 队 及 跨 职 能 的 可 视 性 和 一 致 性 。 















































6.4 用 工具 强化 预期 行为 


软件 开发 高 管 Christopher Little 是 DevOps 最 早 的 支持 者 之 一 。 他 指出 :“ 人 类 学 家 将 工具 描 
述 为 一 种 文化 产物 。 针 对 人 类 学 会 用 火 之 后 的 文化 进行 的 任何 讨论 也 都 和 工具 有 关 。 同样， 在 
DevOps 价值 流 中 ， 我 们 也 要 使 用 工具 来 强化 文化 ， 并 加 速 实现 行为 的 改变 。 


我 们 的 目标 是 强调 ， 开 发 人 员 和 运 维 人 员 不 仅 有 着 共同 的 目标 ， 而 且 还 有 同一 份 任务 列表 。 
在 理想 情况 下 , 任务 列表 存储 在 公共 的 工作 系统 中 , 使 用 统一 的 术语 , 并 能 全 局 地 进行 优先 级 排序 。 


采用 这 种 方式 , 开发 人 员 和 运 维 人 员 可 以 创建 共享 的 工作 队列 ,而 不 是 使 用 不 同 的 工具 ( 例 
如 ,开发 人 员 使 用 JIRA, 运 维 人 员 则 使 用 ServiceNow )。 这 样 做 的 显著 好 处 是 ， 当 生产 事故 在 开 
发 人 员 的 工作 系统 中 可 见 时 ， 人 们 能 清楚 地 知道 事故 会 在 什么 时 候 影 响 到 其 他 工作 , 这 在 使 用 看 
板 图 时 尤为 明显 。 


共享 队列 的 另 一 个 好 处 是 统一 了 任务 列表 ， 每 个 人 都 能 从 全 局 的 角度 思考 优先 级 最 高 的 事 
情 ， 选 择 对 组 织 最 有 价值 的 工作 ,或 能 最 大 限度 地 偿还 技术 债务 的 工作 。 在 发 现 技术 债务 时 ， 如 
果 不 能 立即 解决 ， 可 以 将 它 添加 到 任务 列表 中 。 对 于 待 解决 的 问题 ,可 以 使 用 为 非 功 能 性 需求 预 
留 的 20% 的 时 间 进 行 修复 。 


为 了 强化 共同 目标 , 也 可 以 使 用 聊天 室 , 例如 IRC 频 道 、 HipChat、Campfire、 Slack、Flowdock 
和 OpenFire。 聊 天 室 可 以 实现 信息 的 快速 共享 ( 而 不 是 通过 预定 义 的 工作 流 处 理 表单 )， 能 够 按 
需 邀 请 他 人 加 入 聊天 ， 能 自动 记录 聊天 内 容 ， 并 且 可 以 在 事后 对 其 进行 分 析 。 


建立 机 制 并 允许 团队 成 员 互 相 帮 助 , 其 至 帮助 其 他 团队 的 成 员 。 这 将 带 来 惊人 的 变化 一 一 人 























































































































48 第 6 章 理解 、 可 视 化 和 运用 价值 流 














们 获取 信息 的 时 间或 完成 工作 的 时 间 从 几 天 缩短 到 几 分钟 。 此 外 , 因为 一 切 都 被 有 效 地 记录 下 来 ， 
所 以 人 们 之 后 不 再 需要 向 别人 求助 ， 而 只 需要 搜索 聊天 记录 即 可 。 


不 过 ， 聊 天 室 的 快速 交流 环境 也 可 能 存在 缺点 。Rally 软件 公司 的 创始 人 兼 首席 技术 官 Ryan 
Martens 指出 :“ 在 聊天 室 里 , 如 有 果 提 问 的 同事 几 分 钟 内 没有 得 到 答案 , 那么 他 完全 可 能 再 次 提问 ， 
直到 得 到 想 要 的 答案 。” 

但 是 , 这 种 希望 立即 得 到 回复 的 心情 会 导致 一 些 问 题 。 反复 地 打 断 和 提问 会 干扰 其 他 人 的 正 
常 工 作 。 因 此 ， 团 队 可 以 根据 具体 情况 针对 某 些 类 型 的 需求 使 用 更 结构 化 的 异步 工具 。 
































6.5 小结 


本 章 探讨 了 如 何 确定 支持 价值 流 的 团队 , 并 通过 绘制 价值 流 图 了 解 到 了 向 客户 交付 价值 所 要 
做 的 工作 。 价 值 流 图 不 仅 可 以 显示 当前 工作 状态 的 基本 情况 ( 包括 前 置 时 间 和 %C/A 等 指标 )， 
还 可 以 指导 团队 确定 未 来 的 改进 目标 。 


这 样 一 来 ,转型 团队 能 够 快速 迭代 ,通过 实验 提高 效能 。 团 队 分 配 足 够 的 时 间 修 复 已 知 缺陷 
和 解决 架构 问题 ,包括 非 功 能 性 需求 等 。 针 对 Nordstrom 和 LinkedIn 的 案例 研究 表明 ,通过 在 价 
值 流 中 发 现 问 题 并 持续 偿还 技术 债务 ， 前 置 时 间 和 质量 等 各 个 方面 都 能 取得 显著 改善 。 
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在 前 面 两 章 中 ,我 们 选择 了 合适 的 价值 流 作为 DevOps 转型 的 切入 点 ， 并 且 确 定 了 共同 的 目 
标 和 实践 ， 帮 助 专门 的 转型 团队 优化 向 客户 交付 价值 的 方法 。 


本 章 将 探究 如 何 调整 组 织 结构 ， 从 而 实现 价值 流 的 目标 。 毕 竟 , 团队 的 组 织 方式 会 影响 工作 
方式 。1968 年 , 康 威 博士 与 一 家 合同 外 包 服 务 机 构 做 了 一 个 著名 的 实验 。 他 们 委派 8 人 开发 一 个 
COBOL 编译 器 和 一 个 ALGOL 编译 器 。 康 威 在 他 的 论文 中 写 道 :“ 在 对 工作 难度 和 工作 时 间 进 行 
了 初步 评估 以 后 ， 其 中 5 人 被 分 配 到 了 COBOL 开发 小 组 ， 剩 余 3 人 被 分 配 到 了 ALGOL 开发 小 
组 。 结 果 是 ，COBOL 编译 器 有 $ 个 执行 阶段 ，ALGOL 编译 器 则 有 3 个 。 


之 后 ， 康 威 提出 了 著名 的 康 威 定 律 。 他 指出 :“ 系 统 设计 受 限 于 组 织 自身 的 沟通 结构 。 组 织 
的 规模 越 大 ， 灵 活性 就 越 差 ， 这 种 现象 也 就 越 明 显 。 《大 教堂 与 集 市 》 的 作者 Eric S. Raymond 
在 他 的 “黑客 字典 ”中 总 结 出 一 个 更 简单 ( 而 且 现在 更 有 名 ) 的 康 威 定律 :“ 软 件 的 架构 和 软件 
团队 的 结构 是 一 致 的 ,说白 了 就 是 “如 果 让 4 个 团队 开发 同一 个 编译 器， 那么 编译 如 最 后 会 有 4 
个 执行 阶段 "。” 


换 句 话说 , 软件 开发 团队 的 结构 对 软件 产品 的 架构 和 成 果 有 着 巨大 的 影响 , 为 了 使 工作 从 开发 
到 运 维 快 速 地 流动 ， 并 保证 产品 质量 和 客户 满意 度 ， 必须 利用 康 威 定 律 发 挥 团 队 的 优势 ， 并 灵活 
地 组 织 团 队 。 相 反 ， 如 果 不 理解 康 威 定律 ， 就 会 妨碍 团队 安全 和 独立 地 工作 ,他们 会 被 紧 紧 地 耦 
合 在 一 起 ,所 有 工作 都 相互 依赖 和 等 待 ,即使 是 很 小 的 变更 都 有 可 能 导致 全 局 性 和 灾难 性 的 后 果 。 


康 威 定律 是 如 何 削 弱 或 强化 成 果 的 呢 ? 从 Etsy 开发 的 Sprouter 技术 中 ,我 们 可 以 看 到 这 样 一 
个 例子 。Etsy 的 DevOps 之 旅 始 于 2009 年 , 该 公司 2014 年 的 营 收 近 2 亿美 元 , 在 2015 年 成 功 上 
市 ， 是 业界 公认 的 DevOps 最 佳 实践 组 织 之 一 。 


Sprouter 诞生 于 2007 年 ， 它 与 人 员 、 流 程 和 技术 都 密切 相关 ， 可 是 结果 很 不 理想 。Sprouter 
是 Stored Procedure Router ( 存储 过 程 路 由 ) 的 缩写 , 它 的 设计 初衷 是 使 开发 人 员 和 数据 库 团 队 更 
有 效 地 合作 。 正 如 Etsy 的 高 级 工程 师 Ross Snyder 在 2011 年 的 Surge 大 会 上 所 说 :“Sprouter 的 设 
计 初 囊 是 ,让 开发 团队 在 应 用 程序 中 编写 PHP 代码 ,让 DBA 在 Postgres 数据 库 中 编写 SQL 语句 ， 
通过 Sprouter 让 双方 协作 。” 
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Sprouter 处 在 前 端 PHP 应 用 和 Postgres 数据 库 之 间 ， 前 端 通过 它 集中 式 地 访问 数据 库 ， 从 而 
在 应 用 层 隐藏 对 数据 库 访 问 的 逻辑 。 但 是 , 对 业务 逻辑 所 做 的 任何 变更 都 会 导致 开发 团队 和 数据 
库 团 队 之 间 出 现 严重 的 冲突 。 正 如 Ross Snyder 所 说 :“ 对 于 网 站 的 任何 一 个 新 功能 ，Sprouter 都 
会 要 求 DBA 编写 一 个 新 的 存储 过 程 。 因 此 ， 开 发 团队 在 添加 任何 新 功能 的 时 候 ， 都 要 依赖 于 数 
据 库 团 队 。 在 通常 情况 下 ， 开 发 团队 需要 先 走 完 繁琐 的 流程 之 后 才能 开展 工作 。” 也 就 是 说 ， 添 
加 新 功能 的 开发 团队 依赖 于 数据 库 团队 , 所 以 要 和 数据 库 团 队 一 起 来 排 工作 的 优先 级 、 沟 通 和 协 
调 ， 这 样 就 导致 开发 工作 面临 等 待 、 无 休止 的 会 议 、 漫 长 的 交付 时 间 等 。 正 是 由 于 Sprouter 的 存 
在 ， 开 发 团队 和 数据 库 团 队 之 间 形 成 了 紧 耦 合 的 依赖 关系 ， 这 阻碍 了 开发 人 员 独 立地 进行 开发 、 
测试 和 部 署 代码 。 


此 外 ， 由 于 数据 库存 储 过 程 和 Sprouter 也 是 紧 耦 合 的 〈 每 当 存 储 过 程 变更 时 ，Sprouter 也 需 
要 进行 相应 的 变更 )， 因 此 Sprouter 成 为 了 越 来 越 严 重 的 单 点 故障 。Ross Snyder 解释 说 ， 由 于 耦合 
关系 过 于 紧密 , 因此 双方 需要 保持 高 度 同 步 , 最 后 导致 每 次 部 署 几 乎 都 会 造成 小 规模 的 服务 中 断 。 


Sprouter 的 相关 问题 以 及 最 终 的 解决 方案 都 可 以 通过 康 威 定律 来 解释 。 起 初 ，Etsy 的 开发 团 
队 和 数据 库 团 队 分 别 负责 应 用 层 和 存储 过 程 层 。 正 如 康 威 定律 所 预测 的 那样 ,两 个 团队 工作 在 两 
个 层面 上 。Sprouter 的 目标 是 使 两 个 团队 的 工作 更 容易 ， 但 实际 上 却 背 道 而 驰 一 一 当 业 务 规 则 发 
生变 化 时 ， 他 们 不 是 变更 两 层 ， 而 是 3 层 (应 用 层 、 存 储 过 程 层 以 及 Sprouter 本 身 )。 由 于 在 3 
个 团队 之 间 做 协调 和 排 优先 级 非常 繁琐 , 因此 这 种 方式 严重 地 拖延 了 交付 时 间 , 还 引发 了 可 靠 性 
问题 。 


2008 年 9 月 ，Chad Dickerson 加 入 Etsy 并 任 首 席 技术 官 。 他 为 Etsy 的 公司 文化 带 来 了 重大 
变化 ，Ross Snyder 称 这 些 变 化 为 “伟大 的 Etsy 文 化 转型 ”。Chad Dickerson 做 了 许多 工作 ， 包 括 
投入 巨大 的 资源 用 于 提升 网 站 的 稳定 性 ,允许 开发 人 员 直接 在 生产 环境 中 部 署 代码 , 以 及 在 两 年 
之 内 消除 公司 对 Sprouter 的 依赖 并 最 终 弃 用 它 。 


为 了 消除 对 Sprouter 的 依赖 ,团队 决定 将 所 有 业务 逻辑 从 数据 库 层 迁移 到 应 用 层 。 他 们 组 建 
了 一 个 小 组 ,负责 编写 PHP 对 象 关系 映射 (Object Relational Mapping，ORM ) 层 "， 使 前 端 开 发 
人 员 能 够 直接 调用 访问 数据 库 的 接口 ,同时 将 变更 业务 逻辑 所 需 的 团队 数量 从 3 个 减少 到 了 1 个 。 

Ross Snyder 说 道 :“ 我 们 开始 针对 网 站 的 新 功能 使 用 ORM ,同时 将 已 有 的 功能 逐渐 从 Sprouter 
迁移 到 ORM。 我 们 花 了 两 年 时 间 才 将 全 部 功能 迁移 出 Sprouter。 虽 然 在 整个 过 程 中 大 家 都 在 抱 
怨 Sprouter， 但 它 一 直 处 于 生产 环境 中 。” 

通过 消除 对 Sprouter 的 依赖 ,他 们 也 消除 了 由 于 业务 逻辑 变更 而 导致 的 团队 协作 问题 , 减少 
了 工作 交接 次 数 ， 显著 提升 了 生产 环境 部 署 的 速度 和 成 功率 ,提高 了 网 站 的 稳定 性 。 此 外 ， 由 于 


































































































































































































Q@ ORM 有 很 多 特性 ， 它 抽象 了 数据 库 ， 使 开发 人 员 能 够 执行 查询 和 数据 操作 ， 就 好 像 它们 只 不 过 是 编程 语言 中 的 
对 象 而 已 。 流 行 的 ORM 包括 Java 的 Hibernate、Python 的 SQLAlchemy， 以 及 Ruby on Rails 的 ActiveRecord。 
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小 团队 可 以 独立 地 开发 和 部 署 代码 , 不 再 需要 别 的 团队 在 系统 里 做 变更 , 因此 开发 人 员 的 生产 力 
也 得 到 了 显著 提高 。 


2011 年 初 ，Sprouter 终于 从 Etsy 的 生产 环境 和 版 本 控制 库 中 消失 了 。Ross Snyder 如 释 重负 
地 说 :“ 哇 ， 这 种 感觉 真 好 !”? 


正如 Ross Snyder 和 Etsy 所 经 历 的 那样 ， 组 织 结构 决定 了 工作 方式 和 工作 成 果 。 本 音 接 下 来 将 
探讨 康 威 定律 如 何 对 价值 流 的 绩效 产生 负面 影响 ,更 重要 的 是 , 如 何 利用 康 威 定律 设计 团队 结构 。 














7.1 组 织 原型 


在 决策 科学 领域 ,主要 有 3 种 组 织 结构 类 型 : 职能 型 、 和 矩阵 型 和 市 场 型 。 它 们 可 以 作为 利用 
康 威 定律 设计 DevOps 价值 流 的 参考 。Roberto Fernandez 博士 对 这 3 种 类 型 作 了 如 下 定义 。 


口 职能 型 组 织 结构 注重 提高 专业 技能 、 优 化 分 工 或 降低 成 本 。 这 些 组 织 以 专业 技能 为 中 心 ， 
有 助 于 促进 职业 发 展 和 技能 发 展 ， 并 且 通 党 具有 多 层次 的 组 织 结构 。 运 维 部 门 通常 采用 
这 种 组 织 结 构 ( 即 服务 器 管理 员 、 网 络 管理 员 和 数据 库 管理 员 等 都 被 划分 成 单独 的 小 组 )。 

口 矩阵 型 组 织 结构 试图 结合 职能 型 和 市 场 型 。 然 而 ， 正 如 许多 管理 矩阵 型 组 织 或 身 处 其 中 
的 人 所 看 到 的 那样 ， 这 种 组 织 结构 通常 都 非常 复杂 。 例 如 ， 一 名 员工 可 能 需要 向 两 个 甚 
至 更 多 的 经 理 汇报 。 有 时 ， 算 阵型 组 织 既 实 现 不 了 职能 型 结构 的 目标 ， 也 实现 不 了 市 场 
型 结构 的 目标 。 

口 市 场 型 组 织 结构 注重 快速 响应 客户 需求 。 这 种 组 织 往 往 有 着 扁平 化 的 结构 ， 由 多 个 跨 职 
能 的 部 门 组 成 ( 例如 市 场 营销 部 门 和 工程 技术 部 门 等 ), 整个 组 织 可 能 往往 存在 元 余 现 象 。 
很 多 实施 DevOps 的 杰出 组 织 采 用 了 这 种 结构 。 举 两 个 极端 的 例子 。 在 亚马逊 和 Netflix， 
每 个 服务 团队 不 仅 要 负责 特性 的 交付 ， 而 且 还 要 负责 服务 支持 。” 


了 解 上 述 3 种 组 织 结 构 类 型 之 后 , 让 我 们 进一步 探讨 过 度 地 以 职能 为 导向 ( 尤其 是 在 运 维 部 
门 ) 为 何 会 给 技术 价值 流 造成 负面 影响 ， 就 像 康 威 定律 所 预测 的 那样 。 
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传统 的 IT 运 维 组 织 往往 采用 职能 型 结构 ， 根 据 专业 领域 组 织 团队 。 数 据 库 管理 员 被 归 在 一 
组 ， 网 络 管理 员 被 归 在 另 一 组 ， 服 务 器 管理 员 被 归 在 第 3 组 ,等 等 。 这 种 方式 显然 会 延长 交付 周 
期 , 特别 是 在 像 大 规模 部 署 这 样 复杂 的 活动 中 , 不 得 不 向 多 个 团队 发 出 一 堆 工 单 并 且 对 工作 的 交 
接 情 况 进 行 协调 ， 这 导致 每 一 个 步骤 都 面临 长 时 间 等 待 。 






































Q@ Etsy 在 转型 过 程 中 弃 用 了 许多 技术 ，Sprouter 只 是 其 中 之 一 。 
@) 然而 ， 正 如 后 面 要 讲 的 那样 ， 如 Etsy 和 GitHub 这 些 同样 杰出 的 组 织 却 以 职能 为 导向 。 
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让 问题 变 得 更 复杂 的 是 , 执行 工作 的 人 通常 都 不 太 理 解 自己 的 工作 与 价值 流 目标 有 什么 关系 
( “我 之 所 以 要 配置 这 台 服 务 器 ， 是 因为 别人 要 我 这 么 做 ”)。 这 样 就 无 法 让 员工 发 挥 创造 性 和 主 
动 性 。 


如 果 运 维 部 门 的 每 个 职能 团队 都 要 同时 服务 于 多 个 价值 流 〈 即 多 个 开发 团队 )， 那 么 问题 更 
是 雪上 加 霜 ,， 因 为 所 有 团队 的 时 间 都 很 宝贵 。 为 了 使 开发 团队 及 时 完成 工作 , 运 维 部 门 常常 不 得 
不 将 问题 反映 到 管理 层 ， 从 经 理 、 总 监 一 直到 决策 者 〈 通常 是 总 经 理 )， 再 由 决策 者 按照 组 织 的 
全 局 目标 ( 而 不 是 局 部 目标 ) 为 工作 安排 优先 级 。 然 后 ,决策 再 逐 级 下 达 至 各 个 职能 部 门 ， 最 后 
调整 局 部 的 优先 级 ,而 这 又 会 降低 其 他 团队 的 速度 。 每 个 团队 都 在 加 速 工 作 ，, 而 最 终 的 结果 却 是 
所 有 项 目 都 以 同样 缓慢 的 速度 向 前 推进 。 


除了 导致 长 时 间 等 竺 和 交付 周期 延长 以 外 , 这 种 情况 也 会 导致 糟糕 的 交接 、 大 量 的 返工 、 交 
付 质 量 下 降 、 瓶 颈 和 延期 等 问题 。 


这 种 僵局 阻碍 了 组 织 实现 重要 目标 ， 而 实现 这 些 目标 的 意义 却 远 远 地 超 过 降低 成 本 的 愿望 。” 


同样 ， 职 能 导向 在 集中 式 的 QA 部 门 和 信息 安全 部 门 里 也 很 常见 ,这 对 于 那些 无 需 进行 频繁 
交付 的 软件 来 说 可 能 没有 问题 〈 或 者 说 至 少 能 够 满足 需求 ) 然而 ， 随 着 开发 团队 数量 、 部 署 频 
率 及 发 布 频率 的 增加 , 大 多 数 职能 型 组 织 将 很 难 维持 和 交付 使 人 满意 的 成 果 , 尤其 是 在 工作 需要 
手动 完成 时 更 是 如 此 。 接 下 来 ， 我 们 将 研究 市 场 型 组 织 如 何 运作 。 


7.3 组 建 以 市 场 为 导向 的 团队 〈“ 速 度 优化 ”) 


一 般 来 说 ， 为 了 实现 DevOps， 不 但 要 减少 职能 导向 (“成 本 优化 ”) 的 负面 影响 ， 而 且 还 要 
更 好 地 运用 市 场 导向 (“速度 优化 ”) 的 效果 ， 从 而 使 很 多 小 团队 能 够 安全 、 独 立地 工作 ， 并 快速 
地 向 客户 交付 价值 。 


在 极端 情况 下 ,以 市 场 为 导向 的 团队 不 但 要 负责 特性 开发 , 而 且 在 整个 应 用 生命 周期 中 还 要 
负责 测试 、 安 全 、 部 署 和 生产 环境 的 运 维 。 这 些 跨 职能 团队 可 以 独立 运作 一 能 够 设计 和 开展 用 
户 实验 ,构建 和 交付 新 特性 ,在 生产 环境 中 部 署 并 运行 服务 ,不 依赖 于 其 他 团队 就 能 修复 任何 缺 
陷 ， 从 而 加 快 行动 的 步伐 。 亚 马 逊 和 Netflix 正 是 采用 了 这 种 模式 ， 这 也 是 亚马逊 快速 发 展 的 一 
个 主要 原因 。 

为 了 实现 以 市 场 为 导向 ,不 需要 进行 自 上 而 下 的 大 规模 重组 ,那样 往往 会 造成 大 范围 的 破坏 、 
恺 惧 和 停 洲 。 相 反 ， 将 工程 师 及 其 专业 技能 ( 例如 运 维 、QA 和 信息 安全 ) 嵌入 每 个 服务 团队 ， 
或 者 向 团队 提供 自助 服务 平台 ， 其 功能 包括 配置 类 生产 环境 、 执 行 自动 化 测试 或 进行 部 署 。 


































































































































































































四 Adrian Cockcroft 说 :“ 对 于 那些 5 年 IT 外 包 合同 快 到 期 的 公司 来 说 ， 时 间 好 像 凝 加 了 。 外 部 世界 的 技术 正在 突 飞 
猛 进 ， 而 他 们 却 才 步 难 行 。” 换 名 话说，IT 外 包 是 一 种 通过 合同 控制 成 本 的 策略 ， 合 同 标 有 固定 的 价格 。 但 这 经 
常 导致 组 织 无 法 响应 不 断 变化 的 业务 需求 和 技术 需求 。 
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这 使 每 个 服务 团队 能 够 独立 地 向 客户 交付 价值 ,而 不 必 提 交工 单 给 开 运 维 、QA 或 信息 安全 
等 其 他 部 门 。” 


7.4 使 职能 导向 有 效 


前 一 节 建 议 组 建 以 市 场 为 导向 的 团队 , 但 值得 一 提 的 是 ,职能 导向 也 可 以 成 就 高 效 运转 的 组 
织 ( 见 图 7-1)。 组 建 跨 职能 和 以 市 场 为 导向 的 团队 是 实现 快速 流动 和 可 靠 性 的 一 种 方式 , 但 并 不 
是 唯一 的 方式 。 只 要 价值 流 中 的 所 有 人 都 能 意识 到 客户 和 组 织 的 目标 , 不 管 他 们 在 组 织 中 处 于 什 
么 位 置 ， 都 可 以 通过 职能 导向 取得 所 预期 的 DevOps 成 果 。 















































业务 4 性 集中 式 
i MI 也 运 维 用 户 产 目 团队 运 维 用 户 
(过度 优化 ) (成 本 优化 ) 《速度 优化 ) (速度 和 专业 技能 优化 ) 
每 个 团队 根据 每 个 团队 能 独立 地 开发 、 
工 单 部 署 代码 测试 和 部 署 代码 
果 作 管理 团队 
服务 器 | 网 络 | 数据 库 | 虚拟 化 a 
@ 团队 | 团队 | 田 队 | 男 队 服务 台 
。 | 栈 
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图 7-1 职能 导向 与 市 场 导 向 〈 另 见 彩 搬 ) 
左 侧 为 职能 导向 : 所 有 工作 流 经 集中 式 IT 运 维 团队 ; 右 侧 为 市 场 导 向 : 所 有 产品 团队 能 以 自助 的 方式 
向 生产 环境 部 署 松 耦合 的 组 件 〈 来 源 :《 精 益 企 业 》Kindle 版 ) 

例如 ， 只 要 服务 团队 能 够 快速 ( 最 好 是 按 需 ) 从 运 维 团队 获得 可 靠 的 帮助 , 那么 集中 式 的 职 
能 型 运 维 组 织 也 可 以 实现 高 效 运转 ,反之 亦 然 。 包括 谷 歌 、Etsy 和 GitHub 在 内 的 许多 著名 DevOps 
公司 都 保留 了 职能 型 运 维 团 队 。 

这 些 组 织 的 共同 之 处 是 拥有 高 度 信任 的 文化 , 所 有 部 门 都 能 够 有 效 地 协作 , 所 有 工作 的 优先 
级 设置 都 是 透明 的 , 并 且 系 统 预 留 了 足够 的 容量 , 能够 迅速 完成 高 优先 级 的 工作 。 这 在 某 种 程度 
上 是 依靠 自动 化 的 自助 服务 平台 实现 的 ， 它 保证 了 产品 质量 。 

在 20 世纪 80 年 代 的 精益 制造 运动 中 , 许多 人 研究 人 员 对 丰田 的 职能 导向 感到 困惑 ， 因 为 这 与 
市 场 型 跨 职 能 团队 的 最 佳 实践 并 不 相符 。 他 们 其 至 为 此 起 了 一 个 名 字 :“ 丰 田 第 二 悖 论 ”。 




























































































Q@ 本 书 将 交替 使 用 服务 团队 、 特 性 团队 、 产 品 团队 、 开 发 
发 、 测 试 和 保护 代码 ， 从 而 将 价值 交付 给 客户 。 














可 





队 和 交付 团队 这 些 词 。 目 的 是 特 指 服务 团队 主要 从 事 开 
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Mike Rother 在 《丰田 套路 》 一 书 中 写 道 :“ 尽 管 看 似 诱 人 ， 但 其 实 无 法 通过 重组 的 方式 获得 
持续 的 改进 和 适应 性 。 起 决定 性 作用 的 并 不 是 组 织 形式 ， 而 是 人 们 的 行为 和 反应 。 丰 田 成 功 的 根 
本 原因 不 在 于 其 组 织 结 构 ， 而 在 于 它 的 发 展 能 力 和 员工 的 工作 习惯 。 实际 上 , 令 许 多 人 感到 惊讶 
的 是 ， 丰 田 大 体 上 是 由 传统 的 职能 部 门 构成 的 。” 这 种 发 展 能 力 和 员工 的 工作 习惯 是 下 面 几 节 的 
重点 。 















































7.5 将 测试 、 运 维和 信息 安全 融入 日 常 工作 


在 高 效能 组 织 中 ， 人 们 有 着 共同 的 目标 。 保 证 质量 、 可 用 性 和 安全 性 不 是 某 个 部 门 的 职责 ， 
而 是 所 有 人 日 常 工 作 的 一 部 分 。 


这 意味 着 一 天 中 最 紧要 的 工作 可 能 是 开发 或 部 署 面向 客户 的 新 特性 , 或 者 处 理 严 重 的 生产 事 
故 ; 也 可 能 是 评审 同事 的 代码 变更 , 为 生产 服务 器 紧急 打 安 全 补丁 , 或 者 采取 能 帮助 其 他 工程 师 
提高 效率 的 优化 措施 。 


在 谈 到 开发 和 运 维 的 共同 目标 时 ，Ticketmaster 的 首席 技术 官 Jody Mulkey 说 :“ 在 过 去 近 25 
年 的 时 间 里 ,我 一 直 用 美式 橄榄 球 比赛 来 比喻 Dev 和 Ops。 其 中 ，Ops 是 防守 组 ， 试 图 阻止 对 方 
得 分 ; Dev 则 是 进攻 组 ， 其 目标 是 尽 全 力 得 分 。 而 有 一 天 ,我 突然 意识 到 这 个 比喻 并 不 恰当 ， 因 
为 Dev 和 Ops 从 来 没有 在 同一 时 间 出 现在 球场 上 ， 他 们 实际 上 不 属于 同一 个 团队 !1” 


他 继续 说 道 :“ 我 现在 用 的 比喻 是 ，Ops 是 进攻 内 锋 ，Dev 则 负责 重要 位 置 ( 如 四 分 卫 或 外 
接手 )。Dev 的 工作 是 持 球 冲锋 ，Ops 的 工作 则 是 保证 Dev 有 足够 的 时 间 向 前 冲 。” 


共同 的 痛 点 可 以 强化 团队 的 共同 目标 。 一 个 经 典 的 案例 是 Facebook。2009 年 ，Facebook 正 
经 历 着 飞速 的 增长 , 同时 在 代码 部 署 方面 也 遇 到 了 重大 问题 。 虽然 并 非 所 有 问题 都 会 直接 影响 到 
客户 , 但 团队 始终 处 于 没完 没 了 的 救火 状态 中 。 生产 工程 总 监 Pedro Canahuati 描述 了 这 样 一 次 会 
议 : 与 会 人 员 全 是 运 维 工 程 师 ; 有 人 提议 除了 正在 处 理 故障 的 人 以 外 , 其 他 所 有 人 都 合 上 笔记 本 
电脑 ， 但 是 没有 一 个 人 能 做 到 。 


为 了 提升 部 署 效 率 , Facebook 采取 的 最 有 效 的 一 个 措施 就 是 让 所 有 工程 师 、 工 程 经 理 和 架构 
师 轮 流 值班 ,负责 他 们 自己 构建 的 服务 的 运 维 工作 。 通 过 这 样 做 , 所 有 构建 服务 的 人 都 对 自己 在 
上 游 所 负责 的 架构 和 代码 有 了 亲身 的 感受 ， 这 对 下 游 的 工作 产生 了 巨大 的 积极 影响 。 






























































































































































7.6 使 团队 成 员 都 成 为 通才 


在 极端 情况 下 ， 职 能 型 运 维 组 织 的 各 个 部 门 都 拥有 各 自 的 专业 人 员 ， 比 如 网 络 管理 员 、 存 储 
管理 员 等 。 当 这 些 部 门 过 于 专业 化 时 ， 就 会 产生 简 仓 。Steven Spear 博士 描述 说 ， 这 样 的 专业 化 
部 门 “ 更 像 国家 一 样 ”。 任何 复杂 的 运 维 活动 都 需要 在 基础 设施 的 不 同 部 分 之 间 多 次 交接 和 排队 ， 
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这 导致 交付 时 间 推 迟 ( 例如 ， 每 次 网 络 变更 都 必须 由 网 络 部 门 的 某 个 人 实施 )。 


因为 我 们 依赖 的 技术 越 来 越 多 , 所 以 在 每 个 技术 领域 里 , 都 需要 有 足够 专业 和 精深 的 工程 师 。 
然而 ， 我 们 并 不 想 看 到 他 们 停滞 不 前 ， 或 者 只 能 为 价值 流 的 特定 领域 做 贡献 。 


一 种 对 策 是 让 每 一 位 团队 成 员 都 成 为 通才 ( 见 表 7-1 )。 给 工程 师 提供 学 习 必要 技能 的 机 会 ， 
让 他 们 有 能 力 构 建 和 运行 所 负责 的 系统 , 并 定期 让 他 们 在 不 同 的 职位 间 轮 岗 。 全 栈 工程 师 这 个 术 
语 现在 通常 是 指 那些 熟悉 或 至 少 大 致 理解 整个 应 用 栈 ( 例如 代码 、 数 据 库 、 操 作 系统 、 网 络 和 云 ) 
的 通才 。 




















表 7-1 专家 、 通 才 与 E 型 人 才 ? 














1 型 (专家) T 型 (通才) E 型 
精通 某 个 领域 精通 某 个 领域 精通 某 几 个 领域 
其 他 领域 的 技能 或 经 验 很 少 ”拥有 很 多 领域 的 技能 有 多 个 领域 的 实践 经 验 ， 执 行 能 力 强 ， 能 持续 创新 
很 快 遇 到 瓶颈 能 突破 瓶颈 潜力 无 限 
对 下 游 的 浪费 和 影响 不 敏感 ” 对 下 游 的 浪费 和 影响 敏感 
抵制 灵活 或 可 变 的 计划 帮助 制订 灵活 和 可 变 的 计划 
(来 源 : Scott Prugh 的 “持续 交付 ”一 文 ，ScaledAgileFramework.com，2013 年 2 月 14 日 ，http:Wwww.scaledagileframework.comy/ 


guidance-continuous-delivery/ ) 


ScottPrugh 写 道 , CSG 国际 经 历 了 一 次 重大 转型 , 他 们 把 构建 和 和 运行 产品 所 需 的 大 部 分 资源 
都 整合 到 了 一 个 团队 中 ,包括 需求 分 析 人 员 、 架 构 师 、 开 发 人 员 、 测 试 人 员 和 运 维 人 员 。 他 说 : 
“通过 交叉 培训 和 提高 相关 技能 ， 通 才能 比 专业 人 才 做 更 多 的 工作 ， 同 时 通过 减少 队列 中 的 任务 
和 等 待 时 间 改 善 整体 工作 流程 ”这 种 做 法 与 传统 的 聘用 方式 不 一 致 ， 但 正如 Scott Prugh 所 说 ， 
这 是 非常 值得 的 :“ 传 统 的 经 理 常 常会 反对 聘用 通才 型 工程 师 ， 认 为 成 本 更 高 :“ 聘 用 一 个 通才 型 
运 维 工程 师 的 钱 都 够 用 来 聘用 两 个 服务 器 管理 员 了 。” 然 而 , 更 快 的 工作 流 所 产生 的 商业 价值 是 
巨大 的 。 此 外 ， 正 如 Scott Prugh 所 说 ,“ 多 技能 交叉 培训 非常 有 利于 员工 的 职业 发 展 ， 也 能 让 所 
有 员工 的 工作 变 得 更 有 意思 ”。 


如 果 仅 仅 看 重 员工 现 有 的 技能 或 成 绩 ， 而 不 考虑 他 们 获取 新 技能 的 能 力 ， 就 会 (通常 是 不 经 
意 间 ) 陷入 Carol Dweck 博士 所 说 的 “固定 型 思维 模式 ”， 把 员工 的 智慧 和 能 力 看 作 不 可 改变 的 


仙人 7 
“ 槛 赋 ”。 


相反 ,我 们 希望 辟 励 员工 学 习 ， 帮助 员工 克服 学 习 焦 虑 和 获得 相关 技能 ， 并 让 他 们 明确 地 规 
划 职 业 生涯 ,等 等 。 这样 做 有 助 于 培养 员工 的 成 长 型 思维 模式 一 一 毕竟 ,学 习 型 组 织 需 要 的 是 愿 
意 学 习 的 人 。 通过 鼓励 每 位 员工 积极 学 习 并 为 其 提供 培训 和 支持 , 我 们 将 以 可 持续 性 最 强 、 成 本 
最 低 的 方式 造就 强大 的 团队 。 
























































QE 型 人 才 是 指 在 经 验 、 专 业 、 探 索 能 力 和 执行 能 力 4 个 方面 都 表现 突出 的 人 。 一 一 编者 注 
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迪士尼 的 系统 工程 总 监 Jason Cox 说 :“ 运 维 界 必须 改变 招聘 方式 。 我们 寻找 有 好 奇 心 、 有 和 勇 
气 和 坦率 的 人 ,他 们 不 仅 能 够 成 为 通才 ,而 且 还 能 引领 变革 ……… 我 们 希望 促进 积极 的 变革 , 使 业 
务 不 会 陷入 困境 ， 从 而 走向 未 来 。” 下 一 节 将 讨论 投资 模式 如 何 影响 团队 的 工作 结 








7.7 ”投资 于 服务 和 产品 ， 而 非 项 目 


实现 高 绩效 的 男 一 种 方法 是 组 建 稳定 的 服务 团队 ， 持 续 提 供 资金 ， 让 他 们 执行 自己 的 战略 
和 计划 。 这 些 团 队 应 该 有 工程 师 专 门 负责 兑现 对 内 部 或 外 部 客户 的 具体 承诺 ， 如 特性 、 故 事 和 任 
务 等 。 


在 传统 的 开发 模型 中 , 开发 团队 和 测试 团队 被 分 配 到 某 一 个 项 目 中 ; 当 项 目 完成 或 资金 耗 尽 
后 , 团队 解散 ,他 们 又 被 重新 分 配 到 男 一 个 项 目 中 。 这 种 方式 导致 很 多 不 尽 如 人 意 的 结果 ,包括 
开发 人 员 无 法 看 到 他 们 所 做 决策 的 长 期 效果 (一 种 反馈 形式 )， 以 及 投资 模式 只 注重 和 支付 软件 
生命 周期 的 初始 阶段 ( 不幸 的 是 ,对 于 成 功 的 产品 或 服务 而 言 , 初 始 阶 段 是 成 本 最 低 的 阶段 )。” 

基于 产品 的 投资 模式 注重 组 织 成 绩 和 客户 成 果 , 包括 公司 营 收 、 客 户 终身 价值 ， 以 及 客户 采 
用 率 ， 同 时 尽 可 能 减少 付出 ( 如 时 间 和 精力 、 代 码 行 数 等 )。 与 之 形成 鲜明 对 比 的 是 传统 项 目的 
衡量 指标 ， 壁 如 项 目 是 否 在 既定 的 预算 、 时 间 和 范围 内 完成 。 






















































































7.8 根据 康 威 定律 设 定 团队 边 青 


随 着 组 织 的 发 展 ,保持 人 员 和 团队 之 间 的 有 效 沟通 和 协作 成 为 最 大 的 一 个 挑战 。 通 常 ， 当 团 
队 处 于 不 同 的 楼 层 、 不 同 的 办 公 楼 甚至 不 同 的 时 区 时 ,建立 并 维持 共同 目标 和 相互 信任 变 得 更 加 
困难 ， 这 不 利于 有 效 协作 。 当 主要 的 沟通 机 制 是 工 单 或 变更 请 求 时 ， 团 队 协作 很 难 有 效 地 进行 。 
更 糟糕 的 是 ,合同 有 时 限制 了 团队 协作 ,例如 具体 的 工作 由 外 包 团队 完成 。 


正如 我 们 在 本 音 开 头 看 到 的 Etsy Sprouter 的 例子 ,不 合理 的 团队 组 织 方式 可 能 产生 不 良 后 果 ， 
这 就 是 康 威 定律 的 副作用 。 这 些 不 当 的 方式 包括 按 职能 划分 团队 ( 例如 将 开发 人 员 和 测试 人 员 安 
置 在 不 同 的 办 公 地 点 ， 或 者 完全 外 包 测 试 人 员 )， 以 及 按 架 构 层 次 拆 分 团队 ( 如 应 用 层 、 数 据 库 
层 等 )。 

不 当 的 组 织 方式 需要 各 个 团队 进行 大 量 的 沟通 和 协调 , 但 仍然 可 能 导致 大 量 返 工 、 对 需求 定 
义 有 分 歧 、 工 作 交 接 低 效 ， 以 及 由 于 等 待 上 游人 员 完 工 而 造成 的 人 员 闲 置 等 。 


在 理想 情况 下 ,软件 的 架构 应 该 保证 小 团队 能 够 独立 运作 , 彼此 充分 解 厢 从 而 避免 过 多 不 
必要 的 沟通 和 协调 。 



































































































































正如 Roche Bros. 连 锁 超市 的 信息 技术 副 总 裁 John Lauderbach 所 说 :“ 每 一 个 新 的 应 用 就 像 是 免费 领养 的 一 只 小 狗 。 
要 命 的 不 是 前 期 成 本 ， 而 是 持续 的 维护 和 支持 。 
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在 紧 耦 合 的 软件 架构 中 ， 即 使 是 微小 的 变更 也 可 能 导致 大 规模 的 故障 。 因 此 ， 负 责 某 个 组 件 的 
开发 人 员 不 得 不 和 负责 其 他 组 件 的 开发 人 员 不 断 地 协调 与 沟通 ， 包 括 走 各 种 复杂 的 变更 管理 流程 。 


此 外 , 为 了 测试 整个 系统 是 否 能 工作 , 需要 集成 数 百 个 甚至 数 千 个 开发 人 员 的 代码 变更 , 而 
这 些 开 发 人 员 的 代码 变更 可 能 又 依赖 于 数 十 个 、 数 百 个 甚至 数 千 个 其 他 系统 。 另 外 , 测试 需要 在 
稀缺 的 集成 测试 环境 中 完成 , 这 些 环境 通常 需要 花费 数 周 安装 和 配置 。 结 果 不 仅 延 长 了 交付 周期 
( 交付 周期 通常 是 几 周 或 几 个 月 )， 还 导致 开发 人 员 的 生产 力 低 下 和 部 署 质量 不 佳 。 


相反 ， 如 果 架 构 能 够 支持 小 团队 独立 、 安 全 、 快 速 地 进行 开发 、 测 试 和 部 署 ， 就 可 以 提高 和 
维持 开发 人 员 的 生产 力 ， 并 改善 部 署 质量 。 面 向 服务 架构 ( Service-Oriented Architecture ，SOA ) 
就 具有 这 种 特征 。 面 向 服务 架构 这 一 概念 在 20 世纪 90 年 代 被 提出 ， 它 是 一 种 支持 独立 测试 和 部 
署 服务 的 架构 方式 ， 其 典型 特征 是 由 具有 限界 上 下 文 的 松 耦合 服务 组 成 。” 


松 看 合 的 架构 意味 着 在 生产 环境 中 可 以 独立 更 新 某 一 项 服务 , ， 而 无 需 更 新 其 他 服务 。 该 服务 
必须 与 其 他 服务 以 及 共享 数据 库 解 耦 (可 以 共享 数据 库 服 务 , 但 需要 保证 它们 没有 共同 的 数据 库 
模式 )。 

限界 上 下 文 (bounded context ) 是 Eric Evans 在 《领域 驱动 设计 》 一 书 中 提出 的 概念 。 其 思 
路 是 开发 人 员 应 该 能 够 理解 和 更 新 服务 的 代码 ,而 不 必 知 道 其 对 等 服务 的 内 部 逻辑 。 各 服务 严格 
通过 API 交互 , 因此 不 必 共 享 数 据 结 构 、 数 据 库 模 式 或 对 象 的 其 他 内 部 表示 。 限 界 上 下 文 确保 服 
务 被 划分 成 独立 的 部 分 ， 并 具有 明确 定义 的 接口 ， 这 也 使 测试 更 加 容易 。 


谷歌 应 用 引擎 的 前 技术 总 监 Randy Shoup 指出 :“ 采 用 面向 服务 架构 的 组 织 〈 如 谷歌 和 亚 马 
逊 ) 具有 卓越 的 灵活 性 和 可 扩展 性 。 这 些 组 织 有 成 千 上 万 的 开发 人 员 , 但 小 团队 仍然 能 够 产生 惊 
人 的 生产 力 。 
保持 小 规模 (“两 个 比萨 原则 ”) 


康 威 定律 帮助 我 们 根据 期 望 的 沟通 模式 设 定 团队 边界 , 但 也 鼓励 缩小 团队 规模 , 减少 团队 间 
的 沟通 ， 并 保持 团队 的 专业 领域 小 旦 有 界限 。 


2002 年 ， 亚 马 逊 在 试图 脱离 单一 代码 库 的 转型 过 程 中 利用 “两 个 比萨 原则 ”保持 团队 规模 
小 型 化 一 一 两 个 比 艾 够 团队 的 所 有 成 员 吃 ， 这 样 的 团队 通常 有 5 ~ 10 人 。 


这 种 规模 限制 有 以 下 4 个 重要 作用 。 








































































































































































































@ 基于 面向 服务 架构 原则 的 微服 务 也 具有 这 种 特征 。 基 于 这 些 原 则 的 现代 Web 架构 模式 的 一 个 典型 应 用 是 “十 二 
素 应 用 ”。 
@) 关于 《领域 驱动 设计 》 详 见 http:/www.ituring.com.cn/book/106。 一 一 编者 注 
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(D) 它 确保 团队 成 员 对 系统 有 清晰 、 相 同 的 理解 。 当 团队 规模 变 大 时 ， 如 果 要 让 所 有 人 都 了 
解 系统 状况 ， 需 要 沟通 的 信息 量 就 会 成 倍增 加 。 


(2) 它 限 制 正在 开发 的 产品 或 服务 的 增长 率 。 通 过 限制 团队 的 规模 ， 系 统 的 发 展 速度 也 受到 
限制 ， 这 也 有 助 于 保证 团队 成 员 对 系统 有 相同 的 理解 。 


(3) 它 分 散 权 力 并 实现 自主 。 每 个 “ 双 比 萨 ” 团 队 都 尽 可 能 地 自主 工作 。 团 队 负 责 人 直接 向 
管理 层 汇报 ， 由 他 决定 团队 负责 的 关键 业务 指标 〈 又 称 适应 度 函 数 )， 并 将 其 作为 团队 实践 的 总 
体 评 估 标 准 。 然 后， 团队 能 够 自主 采取 行动 来 最 大 限度 地 提升 该 指标 。” 


(4) 领导 “ 双 比 萨 ” 团 队 是 让 员工 获得 领导 经 验 的 一 种 方式 。 在 这 样 的 环境 中 ， 即 使 失败 了 

也 不 会 有 灾难 性 后 果 。 亚 马 逊 的 策略 有 一 个 关键 要 素 ， 即 “ 双 比 陕 ” 团 队 的 组 织 结构 与 面向 服务 

架构 之 间 的 联系 。 

2005 年 ， 亚 马 逊 的 首席 技术 官 Werner Vogels 向 Baseline 杂志 的 Larry Dignan 解释 了 这 种 组 

织 结构 的 优势 。Larry Dignan 随后 写 道 : 

“小 团队 运作 高 效 ……. 而 且 不 会 因为 所 谓 的 行政 琐事 而 停 淆 不 前 .……: 每 个 团队 全 面 

负责 自己 分 到 的 茶 一 特定 业务 …… 确定 工作 范围 、 设 计 、 构 建 、 实 现 , 而 且 还 要 监控 并 

确保 服务 能 持续 运行 。 这样 一 来 ,程序 员 和 架构 师 能 够 通过 定期 会 议 及 非 正 式 的 谈话 从 
他 们 的 用 户 ( 业务 人 员 ) 那里 直接 获得 反馈 。” 

另外 一 个 关于 组 织 结构 可 以 极 大 提高 生产 力 的 案例 是 塔 吉 特 公司 的 “API 启 用 ”项 目 。 














































































































* 案例 研究 * 
塔 吉 特 公司 的 “API 启用 ”项 目 〈2015 年 ) 


塔 吉 特 是 美国 第 六 大 零售 商 ， 每 年 在 技术 方面 的 投资 超过 10 亿美 元 。 塔 吉 特 的 开 
发 总 监 Heather Mickman 在 描述 公司 如 何 路 上 DevOps 之 旅 时 说 道 :“ 在 那些 糟糕 的 日 子 
里 ， 我 们 一 度 需 要 10 个 团队 协作 置 备 一 台 服 务 器 。 当 出 现 问 题 时 ， 我 们 倾向 于 停止 所 
有 变更 ， 以 防 问 题 进一步 恶化 ， 然 而 这 使 得 情况 变 得 更 粮 ，。” 


搭建 环境 和 执行 部 署 等 相关 工作 给 开发 团队 带 来 了 很 大 的 困难 , 获取 所 需 的 数据 也 
很 困难 。 正 如 Heather Mickman 所 说 : 


我 们 的 大 部 分 核心 数据 ， 如 存货 信息 、 定 价 信息 和 门店 信息 ， 都 被 锁定 在 
遗留 系统 和 大 型 机 中 。 这 就 是 问题 。 电 商 系统 和 实体 店 之 间 经 常 存在 不 同 版 本 
的 数据 ， 由 不 同 的 团队 管理 , 它们 的 数据 结构 和 业务 优先 级 都 不 同 …… 如 果 一 








在 Netflix 的 企业 文化 中 ，7 个 关键 价值 观 之 一 是 “高 度 一 致 ， 松 散 耦 合 ”。 
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个 新 的 开发 团队 希望 为 客户 构建 应 用 ， 就 需要 花费 3~6 个 月 的 时 间 集 成 现 有 
系统 ， 才 能 获得 所 需 的 数据 ; 更 糟糕 的 是 ， 团 队 还 需要 花费 3~6 个 月 的 时 间 
进行 手动 测试 ， 以 确保 他 们 没有 影响 到 任何 关键 业务 ， 而 其 根本 原因 在 于 这 个 
紧 耦 合 的 系统 里 有 很 多 点 到 点 的 集成 。 因 为 不 得 不 管理 二 三 十 个 团队 间 的 协作 
以 及 所 有 的 依赖 关系 ， 所 以 需要 许多 项 目 经 理 参 与 。 这 意味 着 开发 人 员 花 费 所 
有 的 时 间 排 队 等 待 ， 而 不 是 交付 结果 并 完成 任务 。 


在 记录 系统 中 创建 和 检索 数据 的 时 间 较 长 , 这 严重 影响 了 组 织 实现 业务 目标 , 例如 
整合 塔 吉 特 旗下 的 实体 店 和 电 商 网 站 的 供应 链 运营 ( 需要 将 商品 运往 门店 和 顾客 家 里 )。 
这 超出 了 供应 链 的 设计 范围 ， 原 来 只 考虑 到 将 商品 从 供应 商 运往 配送 中 心 和 门店 。 


为 了 解决 数据 问题 ，Heather Mickman 在 2012 年 领导 “API 启用 ”团队 帮助 开发 团队 
在 几 天 内 而 不 是 几 个 月 后 交付 新 功能 。 他 们 希望 塔 吉 特 内 部 的 所 有 团队 都 能 够 方便 地 获取 
和 存储 所 需 的 数据 , 比如 产品 或 门店 信息 ,包括 营业 时 间 、 地 理 位 置 以 及 是 否 有 星巴克 等 。 


时 间 上 的 约束 在 团队 建设 中 发 挥 了 重要 的 作用 。Heather Mickman 解释 说 : 


因为 团队 需要 在 几 天 (而 不 是 几 个 月 ) 内 完成 交付 ， 所 以 必须 能 够 完成 实 

际 的 工作 ， 而 不 是 将 工作 交 给 外 包 商 。 团 队 需 要 技术 卓越 的 人 ， 而 不 是 只 知道 

管理 合同 的 人 。 另 外 ,为 了 确保 工作 有 效 推进 ， 团 队 必须 负责 全 栈 ， 这 意味 着 

还 需要 具备 运 维 能 力 …… 我 们 引入 了 许多 新 工具 来 支持 持续 集成 和 持续 交付 。 

而 有 全， 因为 我 们 知道 ， 一 旦 成 功 就 必须 以 极 高 的 增长 速度 进行 扩展 ， 所 以 我 们 

引入 了 新 的 工具 ， 如 Cassandra 数据 库 和 Kafka 消息 代理 。 我 们 也 曾 问 过 是 否 

能 够 这 样 做 ， 结 果 被 告知 不 行 ， 但 我 们 还 是 这 样 做 了 ， 因 为 我 们 需要 它们 。 

在 接 下 来 的 两 年 中 , “API 启 用 ”团队 交付 了 53 个 新 业务 功能 ， 包 括 商店 配送 、 礼 
物 登 记 以 及 它们 与 Instacart 和 Pinterest 的 集成 。 正 如 Heather Mickman 所 说 :“ 正 是 因为 
我 们 给 Pinterest 提供 了 API， 所 以 与 他 们 的 合作 突然 变 得 非常 简单 。” 


2014 年,，“API 启 用 ”团队 支持 每 月 超过 15 亿 次 的 API 调 用 。 到 2015 年 ， 这 一 数 
字 已 经 达到 170 亿 ， 堆 盖 90 种 API。 为 了 保持 这 种 能 力 ， 他 们 每 周 部 署 80 次 。 





这 些 改 变 给 塔 吉 特 带 来 了 巨大 的 商业 利益 一 2014 年 圣诞 节 前 后 的 总 在 线 销 售 额 
增长 了 42% ， 第 二 季度 又 增长 了 32% 。 仅 2015 年 的 “黑色 星期 五 ” 那 一 个 周末 ， 店 内 
订单 数量 就 超过 了 28 万 。 他 们 的 目标 是 ， 到 2015 年 ，1800 家 门店 中 有 450 家 (之 前 是 
100 家 ) 能 够 使 用 数字 化 系统 完成 订单 交易 。 

Heather Mickman 说 : “API 启用 ”团队 展示 了 由 充满 激情 的 变革 者 组 成 的 团队 能 
做 些 什么 。 它 帮助 我 们 为 下 一 阶段 在 整个 技术 组 织 中 推广 DevOps 打下 了 基础 。” 





参考 康 威 定律 设计 组 





从 Etsy 和 塔 吉 特 的 案例 中 ,我 们 可 以 看 到 架构 和 组 织 设 计 的 巨大 影响 。 康 威 定律 运用 得 好 ， 


团队 就 能 够 安全 、 独 立地 开发 、 测 试 和 向 客户 交付 价值 ;而 运 月 


























导致 安全 性 和 敏 损 





性 遭 到 破坏 。 

















日 得 不 好 ， 就 会 产生 不 良 的 后 果 ， 
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我 们 的 目标 是 能 够 以 市 场 为 导向 , 让 小 团队 快速 、 独 立地 为 客户 提供 价值 。 但 在 以 职能 为 导 
向 的 集中 式 运 维 团队 里 , 实现 该 目标 是 有 挑战 的 , 因为 运 维 团 队 不 得 不 满足 许多 开发 团队 的 各 种 
迎 然 不 同 的 需求 。 结 果 导 致 运 维 工 作 需 要 较 长 的 交付 周期 ， 并 且 需 要 反复 地 调整 工作 的 优先 级 ， 
而 且 部 署 结果 总 是 不 尽 人 意 。 


通过 使 开发 团队 拥有 更 强 的 运 维 能 力 , 可 以 以 市 场 为 导向 创造 出 更 多 的 业务 成 果 , 并 能 最 终 
提高 效率 和 生产 力 。 本 章 将 探索 各 种 实现 该 目标 的 方法 , 不 仅 涉 及 组 织 层 面 ， 而且 还 涉及 日 常 工 
作 。 通 过 这 些 方法 ， 运 维和 人员 可 以 显著 地 提高 开发 团队 的 生产 力 ， 并 实现 更 好 的 协作 。 


大 鱼 游戏 公司 ( Big Fish Games ) 是 一 家 全 球 化 的 网 络 软件 和 游戏 制造 商 ， 开 发 和 运营 着 数 
百 款 移动 端 手 游 和 上 千 款 桌面 端 游 戏 , 2013 年 的 收入 超过 2.66 亿美 元 。 作为 开 运 维 副 总 裁 , Paul 
Farrall 负责 公司 运 维 团队 的 管理 ， 支 持 着 很 多 独立 的 业务 部 门 。 


每 个 业务 部 门 都 有 自己 的 开发 团队 , 而 且 他 们 经 常会 选择 不 同 的 技术 。 当 这 些 团 队 要 部 署 新 
功能 时 ， 他 们 不 得 不 竞争 共享 的 稀缺 资源 一 一 和 运 维 团队 。 此 外 ,每 个 团队 使 用 的 都 是 不 可 靠 的 测 
试 和 集成 环境 ， 而 且 发 布 流程 也 相当 繁琐 。 


Paul Farrall 认为 解决 这 个 问题 的 最 佳 方法 是 将 运 维 专家 融入 开发 团队 。 他 说 :“ 当 开发 团队 
在 测试 或 部 署 方面 遇 到 问题 时 ,他 们 需要 的 不 只 是 技术 或 环境 ,还 需要 帮助 和 指导 。 起 初 , 我 们 
在 每 个 开发 团队 中 能 入 了 和 运 维 工程 师 和 架构 师 , 但 是 并 没有 足够 多 的 运 维 工 程 师 来 覆盖 这 么 多 的 
团队 。 因 此 ， 我 们 采取 了 所 谓 的 “ 运 维 联络 人 模式 "， 用 较 少 的 人 帮助 更 多 的 团队 。 


Paul Farrall 定义 了 两 类 运 维 联络 人 : 业务 关系 经 理 和 专职 发 布 工 程 师 。 业 务 关系 经 理 与 产品 
经 理 、 业 务 线 负 责 人 、 项 目 负 责 人 、 开 发 经 理 及 开发 人 员 一 起 工作 , 他们 非常 熟悉 产品 的 业务 目 
标 和 路 线 图 , 并 在 运 维 部 门 内 部 支持 产品 负责 人 ; 他 们 帮助 产品 团队 在 运 维 过 程 中 优先 处 理 重要 
的 事情 ， 同 时 保证 工作 顺畅 。 


专职 发 布 工 程 师 非常 熟悉 与 产品 开发 和 QA 相关 的 问题 ,帮助 开发 团队 从 运 维 部 门 获 取 支 持 ， 
从 而 更 好 地 实现 业务 目标 。 他 们 熟悉 开发 人 员 和 QA 人 员 对 运 维 的 典型 请 求 , 并 且 能 够 亲自 执行 
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这 些 工作 。 他 们 还 会 根据 实际 情况 ， 协 助 专业 领域 的 运 维 工程 师 (例如 DBA、 信 息 安全 专家 、 
存储 工程 师 和 网 络 工 程 师 )， 确 定 运 维 部 门 需要 优先 构建 哪些 类 型 的 自助 服务 工具 。 


通过 这 种 方式 , Paul Farrall 帮助 所 有 开发 团队 提高 了 工作 效率 , 同时 实现 了 更 优 的 业务 目标 。 
另外 ， 他 还 帮助 团队 根据 整体 的 运 维 约束 条 件 设置 工作 优先 级 ， 降 低 了 项 目 交付 过 程 中 的 风险 ， 
提高 了 团队 的 生产 力 。 


PaulFarrall 指出 ， 以 上 措施 显著 地 改善 了 开发 团队 与 运 维 团队 的 工作 关系 ,也 提升 了 代码 发 
布 速度 。 他 总 结 说 :“ 通 过 采用 运 维 联络 人 模式 ， 我 们 将 开 运 维 专家 融入 开发 团队 和 产品 团队 ， 
而 且 这 并 不 需要 增加 新 的 人 员 。 
大 鱼 游戏 公司 的 DevOps 转型 ， 展 示 了 集中 式 运 维 团队 如 何 取得 以 市 场 为 导向 的 成 果 。 以 下 
是 3 个 通用 的 策略 : 
口 构建 自 服务 能 力 ， 帮 助 开发 人 员 提 高 生产 力 ; 
口 将 运 维 工 程 师 融入 服务 团队 ; 
口 如 果 运 维 工 程 师 人 数 紧张 ， 则 可 以 采用 运 维 联络 人 模式 。 


稍 后 会 介绍 将 运 维 融和 人 日常 开 发 工作 的 实现 方式 , 包括 参加 每 日 站 会 、 计 划 会 议 以 及 回顾 会 
议 等 [oy 






























































8.1 创建 共享 服务 ， 提 高 开发 生产 力 


运 维 部 门 若 想 取得 以 市 场 为 导向 的 成 果 ， 一 种 做 法 是 创建 一 套 集中 式 的 平台 和 工具 集 服务 ， 
让 所 有 开发 团队 都 能 够 通过 使 用 这 套 平台 和 服务 来 提高 生产 力 , 例如 搭建 类 生产 环境 、 部 署 流水 
线 、 自 动 化 测试 工具 、 生 产 环境 遥测 控制 台 等 。 "这 样 ， 开 发 团队 就 能 够 把 更 多 的 精力 和 时 间 用 
在 功能 构建 上 ， 而 不 是 消耗 在 获取 交付 和 支持 生产 环境 特性 所 必需 的 基础 设施 上 。 

在 理想 情况 下 ， 运 维 提供 的 所 有 平台 和 服务 应 该 是 全 自动 化 的 ,并且 能 按 需 提供 , 不 需要 开 
发 人 员 提 交工 单 ， 然 后 再 等 待 运 维 团 队 手 动 处 理 ， 这 能 保证 运 维 不 成 为 客户 的 瓶颈 ( 例如 “我 们 
已 收 到 您 的 工 单 请 求 ， 手 动 配置 这 些 测试 环境 需要 6 周 ”),。” 

这 种 方式 使 得 产品 团队 能 够 及 时 地 取得 所 需 的 资源 ， 同 时 降低 了 沟通 和 协作 成 本 。 正 如 
Damon Edwards 所 说 :“ 如 果 没 有 这 些 自 服务 运 维 平 台 ， 云 环境 只 是 昂贵 的 主机 托管 服务 2.0。” 

大 多 数 情 况 下 , 我 们 都 不 会 向 内 部 团队 强 推 这 些 平台 和 服务 一 一 这 些 平台 团队 必须 通过 令 人 
满意 的 服务 来 赢得 内 部 客户 , 有 时 其 至 需要 同 外 部 供应 商 竞争 。 通过 在 内 部 建立 这 种 有 效 的 市 场 









































































































































Q@ 本 书 将 交替 使 用 “平台 “共享 服务 ”以 及 “工具 链 ” 这 些 术 语 。 
@ Erest Mueller 说 :“ 在 Bazaarvoice， 工 具 平 台 的 开发 团队 接受 的 是 需求 ， 而 不 是 来 自 其 他 团队 的 工作 。” 
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竞争 机 制 ,可 以 确保 所 提供 的 平台 和 服务 是 最 易于 使 用 的 , 而且 是 值得 选择 的 ( 阻力 最 小 的 途径 )。 


例如 ， 可 以 搭建 一 个 这 样 的 平台 : 内 置 可 共享 的 版 本 控制 系统 ， 其 中 包含 可 安全 使 用 的 库 ; 
提供 能 自动 执行 代码 质量 和 安全 扫描 工具 的 部 署 流水 线 , 还 能 把 应 用 程序 部 署 到 装 有 遥测 工具 的 
生产 环境 里 。 在 理想 情况 下 ,通过 使 用 这 种 平台 ,开发 团队 的 工作 会 变 得 更 轻松 ,他们 会 认为 使 
用 这 个 平台 是 最 简单 、 最 安全 、 最 可 靠 的 工作 方式 。 


通过 汇聚 包括 QA 人 员 、 运 维 人 员 和 信息 安全 人 员 在 内 的 全 体 人 员 的 集体 经 验 , 我 们 能 够 创 
建 更 安全 的 工作 系统 。 这 不 仅 能 提高 开发 人 员 的 生产 力 , 还 让 产品 团队 可 以 轻松 地 使 用 工具 和 流 
程 ， 例 如 执行 自动 化 测试 ， 以 及 满足 信息 安全 性 和 合 规 性 要 求 。 


创建 和 维护 这 些 平台 和 工具 是 真正 的 产品 开发 一 一 客户 不 是 外 部 客户 ， 而 是 内 部 开发 团队 。 
像 构建 任何 一 个 伟大 的 产品 一 样 , 做 出 一 个 人 见 人 爱 的 平台 绝 非 偶然 。 如 果 对 客户 的 关注 度 不 够 ， 
则 内 部 平台 团队 有 可 能 开发 出 令 人 讨厌 的 工具 ,导致 客户 迅速 放弃 它 ， 并 去 寻找 新 的 奉 代 品 ,其 
至 转向 男 一 个 内 部 平台 团队 ,或 者 联系 外 部 的 供应 商 。 


Netflix 工程 工具 总 监 Dianne Marsh 称 ， 她 的 团队 宗旨 是 :“ 以 支持 工程 团队 的 创新 和 速度 为 
先 。 我 们 不 为 这 些 团 队 构 建 、 打 包 或 部 署 任何 产品 ， 也 不 为 他 们 管理 配置 。 相 反 ， 我 们 构建 自助 
工具 。 他 们 可 以 依赖 我 们 的 工具 ， 但 不 能 依赖 我 们 的 劳动 力 。” 


平台 团队 通常 还 能 提供 其 他 服务 , 帮助 客户 学 习 他 们 的 技术 , 或 者 做 技术 转移 ,其 至 还 提供 
首 导 和 咨询 ， 从 而 提升 组 织 内 部 的 实践 水 平 。 他 们 提供 的 共享 服务 有 利于 促进 标准 化 ， 即 使 他 们 

在 不 同 团队 之 间 切 换 , 也 能 让 工程 师 快速 进入 状态 。 例如， 如 果 每 个 产品 团队 都 选择 不 同 的 工具 
链 ， 则 工程 师 不 得 不 学 习 一 套 全 新 的 技术 来 完成 工作 ， 这 样 就 使 团队 目标 优先 于 全 局 目标 了 。 

在 有 些 组 织 中 , 团队 只 能 使 用 那些 经 过 批准 的 工具 。 在 这 种 情况 下 , 可 以 尝试 对 少数 团队 ( 例 
如 DevOps 转型 团队 ) 解除 这 些 限制 ， 从 而 通过 实验 发 现 可 以 提高 团队 效率 的 工具 。 

内 部 共享 服务 团队 应 该 不 断 地 发 气 能 在 组 织 内 部 广泛 应 用 的 工具 链 , 判断 哪些 是 能 通过 集中 
式 平台 提供 的 ， 并 让 每 个 人 都 可 以 使 用 。 一 般 来 说 ,发 现 经 实践 验证 的 工具 并 拓展 其 使 用 范围 ， 
要 比 从 零 开 始 构建 这 些 功 能 更 容易 成 功 。” 






















































































































































































8.2 将 运 维 工 程 师 融入 服务 团队 


若 想 取得 以 市 场 为 导向 的 成 果 ， 另 一 种 做 法 是 通过 融入 运 维 工程 师 使 产品 团队 能 自给 自足 ， 
从 而 降低 对 集中 式 运 维 的 依赖 程度 。 这 些 产品 团队 可 以 完全 负责 服务 的 交付 和 支持 。 


通过 将 运 维 工 程 师 融 入 开发 团队 ， 他 们 的 工作 优先 级 几乎 完全 受 所 在 产品 团队 的 目标 驱动 ， 
























































中 毕竟 ,在 设计 系统 时 过 早 地 考虑 重用 性 ， 不 仅 代价 昂贵 ， 也 是 许多 企业 架构 失败 的 一 个 普遍 的 原因 。 
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而 不 再 专注 于 解决 自己 的 问题 。 因此 , 运 维 工程 师 与 其 内 部 和 外 部 客户 的 联系 更 加 紧密 了 。 此 外 ， 
产品 团队 通常 有 专用 的 预算 雇用 这 些 运 维 工程 师 , 不 过 面试 和 聘用 决策 可 能 还 是 由 集中 式 运 维 团 
队 来 完成 ， 以 确保 一 致 性 和 员工 的 素质 。 


迪士尼 的 系统 工程 总 监 Jason Cox 说 :“ 迪 士 尼 将 运 维 人 员 ( 系统 工程 师 ) 融入 业务 部 门 的 产 
品 团队 、 开 发 团队 、 测 试 团队 ， 甚 至 信息 安全 团队 。 这 完全 改变 了 我 们 的 工作 方式 。 运 维 工 程 师 
创建 工具 并 转变 他 人 的 工作 方式 甚至 想法 。 在 传统 的 运 维 模式 里 ,我 们 只 是 驾驶 别人 建造 的 列车 ; 
而 在 现代 化 的 运 维 模式 里 ， 我 们 不 仅 协助 建造 ， 而 且 还 帮助 列车 安全 地 行驶 。 


对 于 新 的 大 型 开发 项 目 , 可 以 在 启动 阶段 就 融入 运 维 工程 师 。 他 们 的 工作 包括 参与 做 什么 和 
如 何 做 的 辅助 决策 ， 影 响 产品 架构 ， 辅 助 内 部 和 外 部 的 技术 选 型 ， 帮 助 创建 内 部 平台 的 新 功能 ， 
甚至 产生 新 的 运 维 能 力 。 当 产品 上 线 之 后 ， 运 维 工程 师 可 以 帮助 开发 团队 承担 运 维 责 任 。 


他 们 将 参加 开发 团队 的 相关 讨论 , 如 计划 会 议 、 每 日 站 会 以 及 新 特性 的 演示 ,并 帮助 决定 可 
以 交付 哪些 特性 。 随 着 开发 团队 对 运 维 知识 和 能 力 的 需求 逐渐 降低 , 运 维 工 程 师 就 可 以 转移 到 其 
他 的 项 目 或 者 工作 中 ， 接 着 按照 以 上 模式 进入 下 一 个 团队 以 及 相应 产品 的 生命 周期 。 

这 种 范式 有 一 个 重要 优势 : 开发 团队 和 运 维 工程 师 的 紧密 配合 和 协作 是 一 种 极其 有 效 的 方 
式 , 能 将 运 维 知识 通过 交叉 培训 的 方式 融入 服务 团队 , 还 可 以 将 运 维 知识 逐渐 转换 为 自动 化 的 代 
码 ， 使 之 更 可 靠 和 更 广泛 地 重用 。 






































































































































8.3 ”为 每 个 服务 团队 分 派 运 维 联络 人 


由 于 各 种 原因 ( 如 成 本 或 者 资源 不 足 )， 可 能 无 法 给 每 个 产品 团队 都 分 派 运 维 工程 师 ， 但 可 
以 给 每 个 产品 团队 指定 一 位 运 维 联络 人 ， 通 过 这 种 方式 同样 也 能 得 到 类 似 的 好 处 。 


Etsy 将 这 种 模式 称 为 “派遣 的 运 维 工 程 师 " 。 集 中 式 运 维 团队 依然 管理 着 所 有 环境 〈 不 只 是 
生产 环境 ， 还 包括 预 生 产 环境 )， 负 责 确 保 它们 的 一 致 性 。 派 遗 的 运 维 工 程 师 的 责任 是 理解 下 列 
内 容 : 


口 新 产品 的 功能 是 什么 ， 为 什么 要 开发 这 个 产品 ; 

口 它 是 怎样 工作 的 ， 可 和 运 维 性 如 何 ， 可 扩展 性 和 监控 能 力 如 何 〈 强 烈 建 议 以 图 示 说 明 ); 
口 怎样 监控 和 收集 指标 ， 如 何 确认 应 用 的 功能 正常 ; 

口 架构 和 模式 是 否 与 以 往 的 做 法 不 同 ， 这 样 做 的 理由 是 什么 ; 

口 是 否 对 基础 设施 有 额外 的 需求 ， 它 的 使 用 对 基础 设施 容量 的 影响 如 何 ; 

口 特性 的 发 布 计 划 。 


此 外 , 与 融入 运 维 工程 师 的 模式 相同 , 运 维 联络 人 也 要 参加 团队 的 站 会 ， 把 团队 的 需求 纳入 
整体 的 运 维 计划 ,并 且 在 必要 的 时 候 执行 相关 任务 。 在 发 生 资 源 竞 争 或 优先 级 冲突 时 ,团队 依赖 
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运 维 联络 人 推进 问题 的 解决 。 通过 这 种 方式 , 我们 可 以 在 更 宽泛 的 组 织 目标 背景 下 , 评估 和 处 理 
资源 竞争 和 冲突 。 


相 比 融入 运 维 工程 师 的 模式 而 言 , 分派 运 维 联络 人 的 方式 能 文 持 更 多 的 产品 团队 。 我 们 的 目 
标 是 确保 运 维 不 会 成 为 产品 团队 的 瓶 贷 。 如 果 发 现 由 于 运 维 联络 人 的 工作 量 过 大 而 导致 产品 团队 
无 法 实现 目标 , 那么 就 可 能 需要 减少 每 个 联络 人 所 支持 的 团队 数量 , 或 者 临时 将 运 维 工 程 师 融 入 
某 些 产品 团队 。 






























































8.4 邀请 运 维 工程 师 参 加 开发 团队 的 会 议 


在 融入 运 维 工程 师 或 分 派 运 维 联络 人 之 后 , 可 以 邀请 他 们 参与 开发 团队 的 各 种 会 议 。 我们 的 
目标 是 帮助 运 维 工程 师 和 其 他 非 开 发 人 员 更 好 地 了 解 目前 开发 团队 的 文化 , 并 主动 地 参与 规划 工 
作 和 日 常 工作 , 从 而 使 运 维 团队 可 以 更 好 地 为 产品 团队 植 入 运 维 能 力 , 并 在 产品 上 线 以 前 就 落实 
相关 工作 。 下 面 的 内 容 将 描述 敏捷 开发 团队 采用 的 一 些 会 议 形 式 , 以 及 如 何 让 运 维 工 程 师 融 入 其 
中 。 这 并 不 意味 着 敏捷 开发 实践 是 一 个 前 提 条 件 一 一 运 维 工程 师 的 目标 是 搞 清楚 产品 团队 采用 何 
种 会 议 形式 ， 并 融入 其 中 ， 给 他 们 添砖加瓦 。” 


Ernest Mueller 说 :“ 如 果 运 维 团队 也 采用 与 开发 团队 一 样 的 敏捷 会 议 形式 ， 我 相信 一 定 会 在 
很 多 运 维 痛 点 上 取得 巨大 突破 ， 并 更 好 地 与 开发 团队 协作 。 



























































8.4.1 邀请 运 维 工 程 师 参 加 每 日 站 会 


每 日 站 会 是 Scrum 所 推崇 的 形式 。 这 是 速 战 速决 的 会 议 , 团队 的 所 有 成 员 聚 到 一 起 ,每 个 人 
都 要 向 大 家 讲 清楚 三 点 : 昨天 做 了 什么 ? 今天 要 做 什么 ? 遇 到 了 什么 难题 ? ” 


每 日 站 会 的 目的 是 在 整个 团队 范围 内 分 享 信息 , 同时 了 解 所 有 正在 做 和 将 要 完成 的 工作 。 通 
过 让 团队 成 员 相 互 分 享 信息 ,可 以 发 现 面 临 难题 的 任务 , 然后 用 互助 的 方式 找到 解决 方法 ,从 而 
从 整体 上 推进 工作 。 此 外 ， 团 队 负 责 人 的 到 场 ， 还 能 加 速 解 决 优先 级 和 资源 冲突 问题 。 


有 些 信息 在 开发 团队 内 部 是 分 散 的 ,这 是 一 个 常见 的 问题 。 通 过 参加 会 议 的 运 维 工程 师 , 运 
维 部 门 可 以 充分 理解 开发 团队 的 活动 , 从 而 更 好 地 进行 规划 和 准备 。 例 如 ， 当 产品 团队 正在 计划 
两 周 内 推出 一 个 重要 特性 时 , 运 维 团队 可 以 保证 部 署 和 发 布 所 需 的 人 员 和 资源 提前 就 绪 , 或 者 加 
















































































Q@ 然而， 如 果 运 维 工程 师 发 现 所 有 的 开发 人 员 整 天 都 坐 在 办 公 桌 前 ， 并 不 相互 交谈 ， 那 么 就 可 能 需要 找 出 其 他 能 吸 
引 他 们 的 方式 ， 例 如 共 进 午餐 、 参 加 读书 俱乐部 、 轮 流 在 午餐 会 上 分 享 ， 或 者 通过 交谈 了 解 他 们 面临 的 问题 ， 帮 
助 他 们 找到 改进 方法 。 

@ Scrum 是 一 种 敏捷 开发 方法 论 ， 它 被 描述 为 “灵活 、 整 体 的 产品 开发 策略 ， 并 将 开发 团队 作为 一 个 整体 实现 共同 
的 目标 ”。Ken Schwaber 和 Mike Beedle 在 4gile Sofiware Development with Scrum 一 书 中 首次 详细 描述 了 这 一 点 。 
本 书 使 用 “敏捷 开发 ”或 “过 代 开发 ” 寺 括 诸如 敏捷 和 Scrum 等 独特 的 方法 所 使 用 的 各 种 技术 。 
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强 需 要 进行 更 多 沟通 和 准备 的 方面 (例如 创建 更 多 的 监控 点 或 自动 化 脚本 )。 这 样 做 可 以 降低 风 
险 , 解决 团队 当前 面临 的 问题 ( 例如 进行 数据 库 后 台 调 优 , 而 不 仅仅 靠 优化 程序 代码 来 提高 性 能 
或 未 来 可 能 遇 到 的 问题 〈 例如 搭建 更 多 的 环境 用 于 集成 测试 和 性 能 测试 )。 

















8.4.2 ”邀请 运 维 工 程 师 参加 回顾 会 议 


在 敏捷 开发 中 , 男 一 个 广泛 采用 的 形式 是 回顾 会 议 。 在 每 个 开发 周期 结束 时 ,团队 成 员 聚 在 
一 起 讨论 : 哪些 方面 是 成 功 的 ?哪些 方面 还 需要 改进 ?怎样 把 所 取得 的 成 功 和 改进 应 用 到 下 一 个 
和 迭代 或 项 目 中 ? 团队 可 以 回顾 上 一 个 迭代 所 做 的 实验 , 提出 比 以 前 更 好 的 设想 。 这 是 组 织 学 习 和 
发 展 的 主要 机 制 ， 讨 论 结果 可 以 立即 实现 ,或 者 加 入 团队 的 待 办 工作 清单 。 


参加 回顾 会 议 的 运 维 工 程 师 也 可 以 从 中 学 习 和 受益 。 而 且 ， 当 回顾 的 时 间 段 里 正好 有 部 署 或 
发 布 时 , 运 维 工程 师 应 该 向 大 家 汇报 结果 , 并 给 产品 团队 提供 反馈 。 这 样 做 可 以 改进 未 来 工作 的 
计划 和 执行 方式 ， 提 高 工作 的 质量 。 运 维 工程 师 可 以 在 回顾 会 议 上 提供 如 下 反馈 。 


口 “在 两 周 前 , 我 们 发 现 了 监控 的 一 个 盲点 , 团队 就 如 何 解 决 也 达成 了 一 致意 见 ,该 问题 目 
前 已 经 被 解决 。 上 周二 ， 监 控 系 统 收 到 一 个 告警 事件 ， 我 们 快速 地 定位 到 故障 ， 并 在 客 
户 服务 受到 影响 之 前 ， 就 把 它 处 理 完毕 了 。 

口 “上 周 那 次 部 署 的 难度 和 所 用 的 时 间 都 是 一 年 之 最 。 这 里 ,我们 列 出 一 些 改进 想法 ， 与 大 

家 分 享 。” 

口 “ 上 周 所 做 的 市 场 促销 活动 比 预期 的 困难 多 了 , 我们 不 应 该 再 搞 类 似 的 促销 活动 了 。 为 了 

能 完成 销售 目标 ， 我 们 其 实 可 以 尝试 一 些 其 他 方案 。 

口 “在 上 次 部 署 期 间 ,， 最 大 的 问题 是 : 生产 环境 的 防火 增 规 则 已 经 多 达 数 千 行 了 ,这 导致 每 
次 变更 都 非常 困难 ， 而 且 风 险 也 很 高 。 我 们 应 该 考虑 重新 设计 网 络 流量 的 管控 规则 。” 


运 维 团队 的 反馈 能 帮助 产品 团队 更 好 地 认识 和 理解 自己 所 做 出 的 决策 对 下 游 团队 的 影响 。 当 
产生 负面 影响 时 , 我们 必须 做 出 相应 的 改变 ,防止 未 来 再 出 现 类 似 的 状况 。 同 时 , 运 维 团 队 的 反 
馈 也 有 助 于 发 现 更 多 的 问题 和 缺陷 ， 甚 至 可 以 帮助 团队 发 现 某 些 架构 问题 。 

团队 的 回顾 会 议 也 能 确定 一 些 改 进 工作 , 例如 缺陷 修复 、 重 构 和 将 手动 操作 自动 化 。 产 品 经 
理 和 项 目 经 理会 在 考虑 到 客户 特性 交付 的 情况 下 ， 推 迟 这 些 改 进 工作 或 者 降低 它们 的 优先 级 。 


但 是 , 我 们 必须 提醒 所 有 人 , 改进 日 常 工作 其 实 比 日 常 工作 本 身 更 重要 ,所 有 团队 都 必须 为 
此 预 留 时间 ( 例如 , 每 个 周期 都 分 配 20% 的 时 间 用 于 改进 工作 , 安排 每 周一 天 或 每 月 一 周 , 等 等 )。 
如 果 不 这 样 做 ， 在 偿还 技术 债务 的 巨大 压力 之 下 ， 团 队 的 生产 力 青 定 会 遭 到 破坏 。 



















































































































































































8.4.3 ”使 用 看 板 图 展示 运 维 工作 
通常 ,开发 团队 会 使 用 白板 或 看 板 图 展示 工作 。 不 过 , 使 用 看 板 图 展示 相关 的 运 维 工 作 非 党 
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少见 。 然 而 ， 若 想 使 应 用 成 功 运行 于 生产 环境 ( 真正 产生 客户 价值 的 地 方 )， 这 些 运 维 工作 是 必 
需 的 。 如 果 不 在 看 板 图 上 展示 运 维 工作 , 我 们 就 意识 不 到 运 维 工作 的 必要 性 ,除非 紧急 情况 导致 
交付 延期 或 生产 环境 出 现 故 障 。 


为 运 维 工 作 是 价值 流 的 一 部 分 , 所 以 应 该 将 它 和 与 产品 交付 相关 的 其 他 工作 一 起 呈现 在 看 
板 图 上 。 通 过 这 种 方式 ， 团 队 能 够 更 加 清晰 地 看 到 将 代码 发 布 到 生产 环境 里 需要 做 的 所 有 工作 ， 
并 跟踪 与 产品 支持 相关 的 所 有 运 维 工作 。 男 外 ， 团 队 还 能 够 从 看 板 图 上 看 出 哪些 运 维 工作 受阻 ， 
以 及 需要 改进 哪些 方面 。 


看 板 图 是 工作 可 视 化 管理 的 理想 工具 。 可 视 化 是 将 运 维 工作 融入 产品 价值 流 的 关键 。 如果 在 
这 方面 做 得 好 ， 不 管 组 织 结构 如 何 调整 ， 我 们 都 能 取得 以 市 场 为 导向 的 成 果 。 


















































8.5 小结 


本 章 探讨 了 如 何 将 运 维 工作 融入 开发 团队 的 日 常 工 作 , 以 及 如 何 使 运 维 工作 可 视 化 。 可 以 采 
用 三 种 方式 : 创建 共享 服务 ， 提 高 开发 生产 力 ; 将 运 维 工程 师 融 入 服务 团队 ; 为 每 个 服务 团队 分 
派 运 维 联络 人 。 最 后 , 本 章 描 述 了 运 维 工 程 师 如 何 融 入 开发 团队 的 日 常 工作 , 包括 参加 每 日 站 会 、 
计划 会 议和 回顾 会 议 。 


























8.6 第 二 部 分 总 结 


在 第 二 部 分 中 ,我 们 思考 并 探讨 了 DevOps 转型 的 多 个 方面 ， 包 括 选择 切入 点 ， 理 解 架构 与 
组 织 的 关系 ， 以 及 组 建 转型 团队 ， 还 探讨 了 如 何 将 运 维 工作 融入 开发 团队 的 日 常 工 作 。 
第 三 部 分 将 探讨 如 何 应 用 流动 的 技术 实践 及 其 相关 原则 ， 使 工作 从 开发 到 运 维 快速 地 流动 ， 
同时 避免 对 下 游 造成 混乱 和 影响 。 




















第 一 步 : 流动 的 技术 实践 











第 三 部 分 的 目标 是 创建 必要 的 技术 实践 和 架构 ， 从 而 使 开发 到 运 维 的 工作 能 够 稳定 地 快速 
流动 ， 并 确保 不 会 造成 生产 环境 的 混乱 或 客户 服务 的 中 断 。 这 意味 着 需要 降低 在 生产 环境 中 部 
署 和 发 布 变更 的 风险 。 这 一 点 可 以 通过 一 套 被 称 为 持续 交付 的 技术 实践 来 实现 。 


持续 交付 包括 打 好 自动 化 部 署 流水 线 的 基础 ， 确 保 团队 能 够 使 用 自动 化 测试 持续 验证 代码 
是 否 处 于 可 部 署 状态 ， 保 证 开发 人 员 每 天 都 将 代码 提交 到 主干 ， 以 及 构建 有 利于 实现 低 风 险 发 
布 的 环境 和 代码 。 接 下 来 的 几 章 将 重点 讨论 以 下 内 容 : 


口 为 部 署 流水 线 黄 定 基础 ; 

口 实现 快速 可 靠 的 自动 化 测试 ; 

D 实现 并 实践 持续 集成 和 持续 测试 ; 

口 通过 自动 化 、 架 构 解 看 等 方式 实现 低 风险 发 布 。 


这 些 实践 能 有 效 缩短 创建 类 生产 环境 的 前 置 时 间 。 同 时 ， 持 续 测试 可 以 为 每 个 团队 成 员 快 
速 提供 反馈 ， 让 小 型 团队 能 够 安全 、 独 立地 开发 、 测 试 和 向 生产 环境 部 署 代码 ， 从 而 使 向 生产 
环境 的 部 署 和 发 布 成 为 日 常 工作 的 一 部 分 。 


此 外 ， 人 
以 及 琐事 的 发 生 ， 让 团队 成 员 的 工作 高 效 且 充满 乐趣 。 这 不 仅 能 提升 团队 的 工作 质量 ， 也 能 增 
强 组 织 的 竞争 力 。 

















































































































为 部 署 流水 线 莫 定 基础 








为 了 使 工作 快速 可 靠 地 从 开发 流向 运 维 , 应 当 保证 价值 流 的 每 个 阶段 都 使 用 类 生产 环境 。 此 
外 , 这 些 环境 必须 能 用 自动 化 的 方式 进行 搭建 。 在 理想 情况 下 ,应 该 使 用 脚本 和 存储 在 版 本 控制 
系统 中 的 配置 信息 按 需 搭建 ， 而 不 需要 依赖 运 维 团队 进行 手动 操作 。 部署 流水 线 的 目标 就 是 能 够 
基于 版 本 控制 系统 中 的 信息 重复 搭建 整套 生产 环境 。 


很 多 时 候 ， 只 有 在 将 应 用 部 署 到 生产 环境 时 ,才能 看 到 应 用 的 实际 表现 。 如 采 发 现 问 题 , 通 
常 为 时 已 晚 。 由 于 构建 的 应 用 与 生产 环境 不 匹配 ,各 种 问题 层出不穷 。 下 文 所 讲述 的 是 澳大利亚 
的 一 家 大 型 电信 公司 的 案例 ， 该 公司 在 2009 年 实施 企业 数据 仓库 项 目 时 遇 到 了 挑战 。 这 个 项 目 
耗资 2 亿美 元 。Em Campbell-Pretty 作为 总 项 目 经 理 和 业务 负责 人 ， 承 担 了 依托 该 平台 实现 所 有 
战略 目标 的 责任 。 


在 2014 年 DevOps 企业 峰会 上 的 演讲 中 ，Em Campbell-Pretty 解释 道 :“ 当 时 有 10 个 工作 流 
在 同步 进行 。 它 们 采用 的 全 都 是 瀑布 式 开 发 流程 ， 并 且 进 度 都 明显 落后 。 其 中 只 有 一 个 工作 流 勉 
强 按照 计划 进入 了 用 户 验收 测试 阶段 , 却 又 花 了 6 个 月 才 完 成 用 户 验 收 测试 , 而 且 质 量 远 远 低 于 
预期 。 该 部 门 在 这 个 项 目 上 如 此 糟糕 的 表现 ， 成 了 他 们 向 敏捷 转型 的 主要 催化 剂 。 


然而 , 在 实施 敏捷 近 一 年 后 , 他 们 的 改进 不 多 , 而 且 仍 然 没 有 达到 预期 。 在 项 目 回顾 会 议 上 ， 
Em Campbell-Pretty 反思 道 :“ 我 们 如 何 才能 将 生产 力 翻 番 呢 ? ” 


在 项 目的 整个 过 程 中 ,大 家 都 曾 抱怨 “业务 方 的 参与 度 低 "。 然 而 在 回顾 会 议 上 ,“ 提 高 环境 
的 可 用 性 ” 却 是 关注 度 最 高 的 问题 。 事后 分 析 表 明 , 开发 团队 需要 准备 好 环境 之 后 才能 开展 工作 ， 
而 这 通常 需要 等 待 8 周 的 时 间 。 
公司 组 建 了 一 个 新 的 集成 团队 ,负责 “在 过 程 中 保证 质量 ， 而 不 是 事后 检查 质量 ”"。 刚 开始 
的 时 候 , 集成 团队 由 数据 库 管理 员 (DBA ) 和 自动 化 专家 组 成 , 他 们 负责 将 环境 搭建 过 程 自动 化 。 
这 个 团队 很 快 发 现 了 一 个 令 人 惊讶 的 事实 : 在 开发 和 测试 环境 中 , 只 有 50% 的 代码 能 和 生产 环境 
的 代码 保持 一 致 。 


Em Campbell-Pretty 说 :“ 我 们 忽然 意识 到 为 什么 每 次 在 新 环境 里 部 署 代码 时 ， 都 会 遇 到 那么 
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多 问题 。 我们 在 所 有 的 环境 中 不 停 地 修复 各 种 问题 ,而 那些 变更 并 没有 在 版 本 控制 系统 里 记录 下 
来 。 

团队 仔细 地 推 喜 了 在 不 同 环境 中 曾经 做 过 的 所 有 代码 变更 , 然后 将 结果 全 都 提交 到 版 本 控制 
系统 。 他 们 还 完成 了 环境 搭建 过 程 的 自动 化 ， 以 便 能 够 反复 、 精 确 地 搭建 环境 。 

Em Campbell-Pretty 在 描述 成 果 时 指出 :获取 正确 可 用 环境 的 等 待 时 间 从 8 周 缩短 到 了 1 天 。 
这 项 至 关 重 要 的 优化 ， 使 我 们 的 交付 周期 、 交 付 成 本 、 缺 陷 数 量 等 指标 都 能 达到 目标 。 

以 上 故事 反映 出 很 多 问题 ， 这 些 问 题 可 以 归咎 于 不 一 致 的 环境 和 没有 将 变更 纳入 版 本 控制 
系统 。 

本 童 接 下 来 将 讨论 如 何 按 需 搭建 环境 , 如 何 使 版 本 控制 系统 的 使 用 范围 包含 价值 流 中 的 每 个 
成 员 , 如 何 使 基础 设施 更 容易 重复 搭建 ,以 及 如 何 确 保 开 发 人 员 在 软件 开发 生命 周期 的 所 有 阶段 
里 都 可 以 在 类 生产 环境 中 运行 代码 。 
































9.1 按 需 搭建 开发 环境 、 测 试 环境 和 生产 环境 


从 前 文 的 企业 数据 仓库 案例 中 可 以 看 出 , 导致 软件 发 布 变 得 混乱 或 具有 破坏 性 甚至 灾难 性 结 
果 的 一 个 主要 原因 ， 是 在 发 布 过程 中 才 首 次 看 到 应 用 如 何在 类 生产 环境 中 处 理 真实 的 数据 "。 在 
很 多 情况 下 ， 开 发 团队 在 项 目的 早期 阶段 可 能 已 经 请 求 过 测试 环境 了 。 


然而 , 由 于 运 维 团队 交付 测试 环境 的 周期 长 ,因此 开发 团队 无 法 及 时 获得 该 环境 并 执行 测试 。 
更 糟糕 的 是 , 测试 环境 的 配置 通常 是 错误 的 , 或 者 与 生产 环境 差异 很 大 ， 以 至 于 即使 在 部 署 前 执 
行 了 测试 ， 最终 仍然 在 向 生产 环境 部 署 时 直到 大 问题 。 

在 这 个 阶段 里 , 开发 人 员 最 好 能 按 需 或 自己 创建 工作 站 , 并 在 其 上 运行 类 生产 环境 。 这 样 一 
来 , 他 们 就 能 把 在 类 生产 环境 中 运行 和 测试 代码 作为 日 常 工作 的 一 部 分 , 并 且 及 早 且 持续 获得 有 
关 工 作 质 量 的 反馈 。 

与 使 用 文档 或 维基 页 面 记 录 生 产 环境 规范 不 同 的 是 , 我 们 建立 了 一 种 通用 的 构建 机 制 , 用 以 
搭建 所 有 环境 ， 如 开发 环境 、 测 试 环 境 和 生产 环境 。 任 何人 都 可 以 通过 这 种 机 制 在 几 分 钟 内 搭建 
好 类 生产 环境 ， 并 不 需要 提交 申请 单 ， 更 不 需要 等 待 好 几 周 。” 


为 了 实现 这 一 点 , 需要 清楚 定义 正确 环境 ,并 将 其 搭建 过 程 自动 化 。 它 必须 稳定 、 安 全 ， 而 






















































































Q@ 这 里 的 环境 是 指 应 用 栈 中 除 应 用 本 身 之 外 的 所 有 内 容 ， 包 括 数据 库 、 操 作 系 统 、 网 络 、 虚 拟 化 ， 以 及 相关 的 所 有 
配置 信息 。 

@ 大 多 数 开发 人 员 都 想 测试 自己 的 代码 ， 他 们 通常 要 花 很 长 时 间 才 能 获得 测试 环境 。 而 且 ， 开 发 人 员 总 是 复 用 旧 项 
目 (通常 是 很 多 年 以 前 的 项 目 ) 的 测试 环境 ， 或 者 请 有 经 验 的 人 帮忙 找 一 个 测试 环境 。 他 们 不 会 问 测试 环境 从 哪 
里 来 ， 而 服务 器 缺失 的 情况 很 普遍 。 
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且 处 于 低 风险 状态 ， 这 将 体现 组 织 的 集体 智慧 。 所 有 需求 都 被 规范 地 能 入 自动 化 的 环境 搭建 过 
程 ， 而 不 需要 写 人 文档 ， 也 不 需要 记忆 。 
我 们 不 再 需要 运 维 团队 手动 构建 和 配置 环境 ， 而 是 可 以 使 用 自动 化 的 方式 完成 以 下 操作 : 


























口 复制 虚拟 化 环境 (如 VMware 虚拟 机 镜像 、 执 行 Vagrant 脚本 ， 以 及 启动 Amazon EC2 虚 
拟 机 镜像 文件 ); 
口 构建 “ 裸 金属 物理 机 ”的 自动 化 环境 搭建 流程 (例如 ,使 用 PXE 方式 通过 基线 镜像 进行 
安装 ); 

口 使 用 “基础 设施 即 代 码 ” 的 配置 管理 工具 ( 例如 Puppet、Chef、Ansible 、SaltStack、 
CFEngine 等 ); 
口 使 用 操作 系统 自动 化 配置 工具 ( 例如 Solaris Jumpstart、Red Hat Kickstart 和 Debian preseed ); 
口 使 用 一 组 虚拟 镜像 或 容器 ( 例如 Vagrant 和 Docker ) 搭建 环境 ; 

口 在 公有 云 (例如 Amazon Web Services 、Google App Engine 和 Microsoft Azure )、 私 有 云 或 
其 他 PaaS (平台 即 服务 ， 如 OpenShift 和 Cloud Foundry 等 ) 中 创建 新 环境 。 


因为 提前 仔细 定义 了 环境 的 各 个 方面 ， 所 以 不 仅 能 快速 地 创建 新 环境 ， 还 能 确保 环境 稳定 
、 一 致 和 安全 。 这 种 方式 对 团队 非常 有 帮助 。 


自动 化 的 环境 搭建 过 程 确保 了 一 致 性 , 减少 了 繁琐 、 易 出 错 的 手动 操作 , 运 维 人员 能 从 这 种 
快速 搭建 新 环境 的 能 力 中 获 益 。 开 发 人 员 也 得 到 了 好 处 : 他 们 在 工作 站 上 就 能 再 现 生产 环境 的 必 
要 部 分 ,并 在 这 个 环境 中 构建 、 运 行 和 测试 代码 。 通 过 这 种 方式 ， 开 发 人 员 能 在 项 目 初期 就 发 现 
并 解决 许多 问题 ， 而 不 用 等 到 集成 测试 阶段 ， 更 不 用 等 到 进入 生产 环境 。 

通过 获得 完全 可 控 的 环境 , 开发 人 员 能 在 与 生产 服务 和 其 他 共享 资源 安全 隔离 的 情况 下 , 快 


速 地 重 现 、 定 位 和 修复 缺陷 。 同 时 ,开发 人 员 还 可 以 尝试 更 改 环境 和 优化 创建 环境 的 基础 设施 代 
码 (例如 配置 管理 脚本 )， 从 而 进一步 在 开发 和 运 维 之 间 共 享 信息 。” 













































































9.2 ”应 用 统一 的 代码 仓库 

通过 上 一 阶段 的 工作 , 我 们 已 经 能 够 按 需 创建 开发 环境 、 测 试 环境 和 生产 环境 。 接 下 来 必须 
保证 软件 系统 的 所 有 部 分 都 正常 工作 。 

几 十 年 来 ， 使 用 版 本 控制 系统 管理 代码 ， 已 经 逐渐 成 为 开发 人 员 和 开发 团队 的 基本 做 法 ?。 























Q@ 理想 情况 下 ， 应 该 在 集成 测试 前 发 现 缺陷 ， 和 否则 开发 人 员 无 法 快速 获得 反馈 。 如 果 做 不 到 这 一 点 ， 很 可 能 说 明 架 
构 存 在 隐患 。 将 可 测试 性 作为 系统 设计 的 目标 ,使 开发 人 员 使 用 非 集成 式 虚 拟 环境 在 工作 站 上 尽 可 能 多 地 发 现 缺 
陷 ， 是 架构 能 够 支持 快速 工作 流 和 快速 反馈 的 关键 。 

@ CDC6600 上 的 UPDATE 算得 上 是 第 一 个 版 本 控制 系统 ( 1969 年 )。 后 来 陆续 出 现 了 SCCS ( 1972 年 )、VMS 上 的 
CMS (1978 年 )、RCS (1982 年 ) 等 系统 。 
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版 本 控制 系统 记录 了 对 系统 中 的 文件 或 文件 集合 所 做 的 变更 。 这 些 文件 可 以 是 源 代码 、 资 源 文件 
或 软件 开发 项 目的 其 他 文档 。 一 组 变更 构成 一 次 提交 ,也 称 修订 。 每 个 修订 版 本 及 其 元 数据 ( 例 
I 谁 在 什么 时 间 进行 了 更 改 ) 都 以 某 种 方式 存储 在 系统 中 ， 从 而 让 我 们 可 以 进行 提交 、 对 比 、 合 
并 以 及 从 仓库 中 还 原 出 以 前 修订 版 本 的 对 象 ,版 本 控制 系统 还 能 通过 把 生产 环境 中 的 对 象 回 深 到 
之 前 版 本 来 降低 风险 。( 在 本 书 中 ， 以 下 术语 的 含义 相同 : 检 入 版 本 控制 系统 、 提 交 到 版 本 控制 
系统 、 提 交代 码 、 提 交 变 更 ， 以 及 提交 。 ) 


当 开 发 人 员 将 所 有 的 源 文件 和 配置 文件 都 纳入 版 本 控制 系统 后 , 它 就 变 成 了 唯一 精确 体现 系 
统 预 期 状态 的 代码 仓库 。 然 而 ， 因 为 向 客户 交付 价值 同时 需要 代码 及 其 运行 环境 ， 所 以 还 需要 把 
与 环境 相关 的 配置 代码 也 纳入 版 本 控制 系统 。 换 句 话说 ， 版 本 控制 系统 面向 价值 流 中 的 所 有 人 ， 
包括 QA 人 员 、 运 维 人 员 、 信息 安 全 人 员 以 及 开发 人 员 。 通过 将 所 有 相关 信息 纳入 版 本 控制 系统 ， 
我 们 能 够 重复 和 可 靠 地 重新 生成 软件 系统 的 所 有 组 件 , 这 包括 应 用 和 生产 环境 ,以 及 所 有 的 预 生 
产 环境 。 


为 了 确保 即使 在 发 生 灾难 性 事故 时 , 也 可 以 重复 且 精 确 地 ( 最 好 还 能 快速 地 ) 恢 复生 产 环境 ， 
必须 把 下 列 资源 也 纳入 版 本 控制 系统 : 


口 应 用 的 所 有 代码 和 依赖 项 ( 例如 库 、 静 态 内 容 等 ); 

口 任何 用 于 创建 数据 库 模式 的 脚本 、 应 用 的 参考 数据 等 ; 

口 上 一 节 描 述 的 所 有 用 于 搭建 环境 的 工具 和 工件 ( 例如 VMware 或 AMI 虚拟 机 模板 、Puppet 
或 Chef 配置 模块 等 ); 

口 任何 构建 容器 所 使 用 的 文件 (例如 Docker 或 Rocket 的 定义 文件 和 compose 文件 等 ); 
口 所 有 支持 自动 化 测试 和 手动 测试 的 脚本 ; 

口 任何 支持 代码 打包 、 部 署 、 数 据 库 迁 移 和 环境 置 备 的 脚本 ; 

口 所 有 项 目 工件 〈 例如 需求 文档 、 部 署 过 程 、 发 布 说 明 等 ); 

口 所 有 云 平台 配置 文件 (例如 AWS CloudFormation 模板 、Microsoft Azure Stack DSC 文件 ， 
以 及 OpenStack HEAT 模板 文件 ); 
口 创建 支持 多 种 基础 设施 服务 ( 例如 企业 服务 总 线 、 数 据 库 管 理 系 统 、DNS 区 域 文件 、 防 
火 墙 配 置 规则 和 其 他 网 络 设备 ) 所 需 的 任何 其 他 脚本 或 配置 信息 。” 


我 们 可 能 有 多 个 针对 不 同类 型 的 对 象 和 服务 的 仓库 , 并 在 源 代码 中 为 它们 打上 不 同 的 标签 或 
标记 。 例如 ,我 们 可 能 在 工件 仓库 (如 Nexus 或 Artifactory ) 中 存储 大 的 虚拟 机 镜像 、ISO 镜像 ， 
以 及 编译 过 的 二 进 制 文件 等 ;也 可 能 把 它们 放 在 二 进 制 大 对 象 存储 库 ( 例如 Amazon S3 存储 桶 ) 
中 ,或 将 Docker 镜像 放 和 人 Docker 镜像 仓库 。 


仅 能 重 现 生产 环境 之 前 的 状态 是 不 够 的 ,还 必须 能 够 重 现 整个 预 生产 环境 和 构建 过 程 , 因 此 ， 
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@ 可 以 看 出 ， 版 本 控制 系统 在 一 定 程度 上 满足 了 ITIL 中 所 定义 的 最 终 媒 体 库 (Definitive Media Library，DML ) 和 
配置 管理 数据 库 ( Configuration Management Database，CMDB ) 的 需求 ， 它 记录 了 重复 创建 生产 环境 所 需 的 一 切 。 
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需要 把 构建 过 程 所 依赖 的 一 切 也 都 纳入 版 本 控制 系统 ,这 包括 所 用 工具 ( 例如 编译 器 和 测试 工具 ) 
及 其 所 依赖 的 环境 。" 


Puppet Labs 在 《2014 年 DevOps 现状 报告 》 中 ， 将 运 维 团队 使 用 版 本 控制 列 为 IT 效能 和 组 
织 绩效 的 五 大 预测 因子 之 一 。 事 实 上 ， 与 开发 团队 相 比 ， 运 维 团 队 使 用 版 本 控制 系统 对 IT 效能 
和 组 织 绩效 的 影响 更 大 。 

Puppet Labs 的 报告 强调 了 版 本 控制 在 软件 开发 过 程 中 的 重要 性 。 将 对 应 用 和 环境 所 做 的 所 
有 变更 都 一 一 记录 在 版 本 控制 系统 中 ,不仅 能 帮助 团队 快速 地 查看 可 能 导致 问题 的 变更 , 而 且 还 
提供 了 回 深 到 以 前 某 个 正常 状态 的 途径 ， 帮 助 团队 更 快 地 恢复 系统 。 

相 比 于 对 代码 进行 版 本 控制 ,为 什么 对 环境 进行 版 本 控制 能 更 好 地 预测 开 效能 和 组 织 绩效 呢 ? 

实际 上 ， 几 乎 在 所 有 情况 下 ， 环 境 的 可 配置 参数 都 要 比 代 码 的 可 配置 参数 多 出 好 几 个 量 级 。 
所 以 ， 环 境 最 需要 使 用 版 本 控制 。” 

版 本 控制 还 为 价值 流 中 的 所 有 人 提供 了 有 效 的 沟通 方式 ， 让 开发 人 员 、QA 人 员 、 信 息 安 全 
人 员 和 运 维 人 员 都 能 够 看 到 彼此 所 做 的 变更 。 这 有 助 于 减少 信息 不 对 称 , 并 帮助 建立 和 增强 信任 
( 详 见 附录 7 )。 




































































9.3 使 基础 设施 的 重建 更 容易 


当 我 们 能 按 需 快 速 地 重建 应 用 和 环境 时 ,一 旦 出 现 问题 ， 便 可 以 快速 进行 构建 ， 而 不 必 花 时 
间 修 复 。 虽 然 几 乎 所 有 大 型 互联 网 公司 〈 即 超过 1000 台 服 务 器 ) 都 是 这 么 做 的 ， 但 即使 生产 环 
境 只 有 一 台 服 务 咒 ， 也 应 该 采用 这 种 做 法 。 


Bill Baker 是 微软 的 一 名 资深 工程 师 。 他 曾 有 一 番 妙 语 ， 称 我 们 过 去 对 待 服务 器 就 像 对 待 宠 
物 :“ 我 们 给 它们 起 名 字 ， 并 在 它们 生病 时 悉心 照料 。 现 在 ， 我 们 对 待 服务 器 更 像 对 待 性 畜 : 给 
它们 编号 ， 在 它们 生病 时 把 它们 干掉 。” 

通过 重复 创建 环境 ,我 们 能 够 将 更 多 的 服务 器 添加 到 资源 池 ， 从 而 轻松 地 增加 容量 即 水 平 
扩容 )。 同时 ， 也 避免 了 当 不 可 再 现 的 基础 设施 发 生 灾难 性 故障 后 必须 恢复 服务 的 痛苦 。 这 些 灾 
难 性 故障 通常 是 由 多 年 来 无 记录 的 手动 变更 引发 的 。 

为 了 确保 环境 的 一 致 性 ,所 有 对 生产 环境 的 变更 〈 配 置 变更 、 打 补丁 、 升 级 等 ) 都 需要 被 复 
制 到 所 有 的 预 生产 环境 以 及 新 搭建 的 环境 中 。 











































































































Q 在 下 面 的 阶段 中 ， 我 们 还 将 把 所 有 基础 设施 都 纳入 版 本 控制 系统 ， 例 如 自动 化 测试 套件 ， 以 及 用 于 持续 集成 和 持 

续 部 署 的 流水 线 基础 设施 。 
@) 曾经 为 ERP 系统 ( 如 SAP、Oracle Financials 等 ) 执行 过 代码 迁移 的 人 ， 可 能 都 经 历 过 这 种 情况 : 代码 迁移 很 少 
因 编 程 错误 失败 。 相 反 , 开发 环境 和 测试 环境 (或 测试 环境 和 生产 环境 ) 之 间 的 某 些 差异 , 更 容易 导致 迁移 失败 。 






































9.4 运行 在 类 生产 环境 里 才 算 “ 完 成 ” 75 











必须 确保 所 有 变更 都 能 自动 地 被 复制 到 所 有 环境 中 并 被 版 本 控制 系统 记录 , 而 不 需要 手动 登 
录 服 务 右 进行 变更 操作 。 


可 以 依靠 自动 化 配置 管理 系统 保证 一 致 性 (例如 Puppet、Chef、Ansible 、Salt、Bosh 等 )， 
也 可 以 通过 自动 化 构建 机 制 ， 创 建新 的 虚拟 机 或 容器 ， 将 其 部 署 到 生产 环境 ， 再 销毁 或 移 除 旧 
资源 。" 


后 一 种 模式 被 称 为 不 可 变 基础 设施 , 即 生产 环境 不 再 允许 任何 手动 操作 。 变 更 生产 环境 的 唯 
一 途径 是 把 变更 先 检 入 版 本 控制 系统 ,然后 从 头 开 始 重 新 构建 代码 和 环境 。 这 样 做 杜绝 了 差异 草 
延 到 生产 环境 中 的 可 能 性 。 


为 了 杜绝 不 受 控 制 的 配置 差异 ， 可 以 禁止 远程 登录 生产 服务 右 *， 或 定期 删除 和 替换 生产 环 
境 中 的 实例 , 从 而 确保 移 除 手动 变更 。 这 会 促使 所 有 人 都 通过 版 本 控制 系统 用 正确 的 方式 进行 变 
更 。 这 些 措 施 能 系统 地 减少 基础 设施 偏离 已 知 良 好 状态 的 可 能 性 (例如 出 现 配置 漂移 、 脆 弱 的 工 
件 、 摆 设 、 雪 花 服务 器 等 )。 

此 外 ,必须 保证 预 生产 环境 是 最 新 的 ,特别 是 要 让 开发 人 员 使 用 最 新 的 环境 。 开 发 人 员 通 常 
希望 待 在 较 旧 的 环境 里 ， 因 为 他 们 担心 更 新 环境 可 能 会 破坏 现 有 的 功能 。 然而， 只 有 频繁 更 新 环 
境 ， 才 能 在 开发 周期 的 最 早 阶 段 找 出 问题 。” 













































































9.4 运行 在 类 生产 环境 里 才 算 “完成 ” 

现在 我 们 已 经 可 以 按 需 搭建 环境 ， 而 且 一 切 都 处 于 版 本 控制 之 下 。 接 下 来 的 目标 ， 是 确保 开 
发 团队 在 日 常 工作 中 使 用 这 些 环 境 。 需 要 在 离 项 目 结束 还 有 很 长 一 段 时 间 时 , 或 在 首次 向 生产 环 
境 部 署 前 ， 就 确认 应 用 能 在 类 生产 环境 中 正常 运行 。 

大 多 数 现代 软件 开发 方法 论 都 指定 采用 短 的 迭代 周期 ， 而 非 大 爆炸 方法 ( 例如 瀑布 模型 )。 
一 般 来 说 ， 部 署 的 间隔 时 间 越 长 ， 软 件 质 量 越 差 。 例 如 ， 在 Scrum 方法 论 中 ,冲刺 (sprint ) 是 
一 个 用 时 固定 的 开发 周期 (通常 一 个 月 或 更 短 )。 在 这 个 时 间 段 内 ， 需 要 将 任务 完成 ， 即 要 产 出 
“可 工作 和 可 交付 的 代码 ”。 


我 们 的 目标 , 是 在 整个 项 目 中 , 确保 开发 和 QA 能 日 益 频 繁 地 把 代码 与 类 生产 环境 常规 性 地 
集成 起 来 "。 我 们 通过 扩展 “完成 ”的 定义 来 实现 这 一 点 。“ 完 成 ”是 指 不 仅 实现 了 功能 正确 的 代 



















































































中 在 Netfix，AWS 虚拟 机 实例 的 平均 寿命 是 24 天， 其 中 60% 还 不 到 1 周 。 

@) 或 者 仅 在 紧急 情况 下 允许 远程 登录 ， 同 时 确保 控制 台 的 日 志 能 通过 电子 邮件 自动 发 送 给 运 维 团队 。 

@) 整个 应 用 栈 和 环境 都 可 以 固化 到 容器 中 ， 这 也 可 以 简化 整个 部 署 流水 线 。 

二 “集成 ”一 词 在 开发 和 运 维 中 有 着 许多 彼此 略 有 差别 的 含义 。 在 开发 中 ,集成 通常 指 代码 集成 ， 即 在 版 本 控制 系统 
中 将 多 个 代码 分 支 集成 到 主干 。 在 持续 交付 和 DevOps 中 ， 集 成 测试 指 在 类 生产 环境 或 集成 的 测试 环境 中 测试 应 
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码 ， 而 且 在 每 个 迭代 周期 结束 时 ， 已 经 在 类 生产 环境 中 集成 和 测试 了 可 工作 和 可 交付 的 代码 。 


换 句 话说 ,“ 完 成 ”不 是 指 开 发 人 员 认为 已 经 完工 ， 而 是 指 可 以 成 功 地 构建 和 部 署 应 用 ， 并 
且 确 定 它 在 类 生产 环境 中 按照 预期 运行 ( 最 好 早 在 迭代 结束 之 前 , 就 处 理 过 与 生产 环境 类 似 的 负 
载 和 数据 集 )。 这 样 就 能 防止 应 用 只 能 运行 在 开发 人 员 的 笔记 本 电脑 上 , 而 无 法 在 其 他 地 方 运行 。 


开发 人 员 通 过 在 类 生产 环境 中 编写 、 测试 和 运行 自己 的 代码 , 就 能 在 日 常 工作 中 完成 代码 与 
环境 集成 的 大 部 分 工作 ， 而 不 需要 等 到 发 布 时 才 做 。 在 第 一 个 开发 周期 结束 时 ,代码 和 环境 已 经 
被 多 次 集成 ， 应 用 已 被 证 明 能 在 类 生产 环境 中 正确 运行 。 理 想 情况 下 ， 所 有 步骤 都 是 自动 化 的 。 

更 棒 的 是 , 到 项 目 结束 时 ,我 们 应 该 已 经 在 类 生产 环境 中 部 署 和 运行 几 百 甚至 上 千 次 代码 了 ， 
因此 能 确信 大 部 分 生产 环境 部 署 的 问题 都 已 经 被 发 现 和 解决 了 。 

最 好 在 预 生产 环境 中 使 用 与 生产 环境 相同 的 工具 ,如 监控 工具 日 志 记 录 工 具 和 部 署 工具 等 。 
这 样 做 能 让 我 们 积累 经 验 ， 熟悉 如 何在 生产 环境 中 顺利 部 团 和 运行 代码 ， 以 及 诊断 和 解决 问题 。 

通过 让 开发 团队 和 运 维 团 队 共 同 掌握 代码 和 环境 互动 的 方式 ， 并 尽早 频繁 地 实施 代码 部 署 ， 
生产 环境 的 部 署 风 险 得 以 显著 降低 。 这 也 避免 了 在 项 目的 最 后 时 刻 才 发 现 架构 问题 , 并 完全 消除 
了 这 一 类 安全 隐患 。 

















































































































9.5 小 结 


构建 从 开发 到 运 维 的 快速 工作 流 , 需要 确保 任何 人 都 能 按 需 获得 类 生产 环境 。 通过 让 开发 人 
员 在 软件 项 目的 最 初 阶段 就 使 用 类 生产 环境 , 可 以 显著 降低 生产 环境 出 现 问题 的 风险 。 这 也 是 证 
实 运 维 能 提高 开发 效率 的 诸多 实践 之 一 。 通 过 扩展 “完成 ”一 词 的 定义 ,规定 开发 人 员 在 类 生产 
环境 中 运行 代码 。 

此 外 ,通过 把 所 有 生产 工件 纳入 版 本 控制 系统 ， 我 们 有 了 “唯一 的 事实 来 源 ”"”， 这 使 我 们 能 
够 用 快速 、 可 重复 和 文档 化 的 方式 重新 搭建 整个 生产 环境 , 并 在 运 维 工作 中 采用 和 开发 工作 一 至 
的 实践 。 通 过 使 基础 设施 的 重建 比 修复 更 容易 ， 我 们 能 够 更 轻松 、 更 快速 地 解决 问题 , 团队 产能 
也 更 容易 提升 。 


这 些 实践 为 实现 全 面 的 自动 化 测试 莫 定 了 基础 。 下 一 章 会 探讨 自动 化 测试 的 内 容 。 















































实现 快速 可 靠 的 自动 化 测试 








在 日 常 工作 中 , 开发 人 员 和 QA 人 员 使 用 类 生产 环境 运行 应 用 。 对 于 每 个 特性 而 言 ， 代 码 都 
已 经 在 类 生产 环境 中 集成 和 运行 ,而 且 所 有 变更 都 已 经 提交 到 版 本 控制 系统 。 但 是 ,如 果 等 到 所 
有 的 开发 工作 完成 之 后 再 由 单独 的 QA 部 门 通过 专门 的 测试 阶段 发 现 和 修复 错误 , 那么 结果 往往 
并 不 理想 。 而 且 ， 如 果 每 年 只 能 进行 几 次 测试 ,那么 开发 人 员 就 只 能 在 引入 变更 的 几 个 月 后 , 才 
知道 他 们 所 犯 的 错误 。 到 那 时 ， 很 难 查 清 问题 的 原因 ， 而 开发 人 员 不 得 不 急 着 解决 问题 ， 这 极 大 
地 削弱 了 他 们 从 错误 中 学 习 的 能 力 。 


自动 化 测试 解决 了 一 个 重要 且 令 人 不 安 的 问题 。Gary Gruver 说 :“ 如 果 没 有 自动 化 测试 ， 那 
么 我 们 编写 的 代码 越 多 , 测试 代码 所 花费 的 时 间 和 人 金钱 也 会 越 多 。 在 大 多 数 情况 下 ,这 种 商业 模 
式 对 于 任何 技术 组 织 而 言 都 是 无 法 扩展 的 。 


虽然 谷歌 现在 很 重视 大 规模 自动 化 测试 ， 但 过 去 并 非 如 此 。2005 年 ，Mike Bland 加 入 谷歌 。 
当时 ，Google.com 的 部 署 困 难 重重 ， 谷 歌 Web 服务 器 ( GWS ) 团队 的 问题 尤其 严重 。 


Mike Bland 说 道 :“GWS 团队 在 2005 年 前 后 备 受 困扰 : Web 服务 器 运行 着 处 理 谷 歌 主 页 和 
其 他 许多 网 页 请 求 的 C++ 应 用 ， 对 其 进行 变更 是 极其 困难 的 事 。 尽 管 Google.com 赫赫 有 名 ， 但 
是 在 GWS 团队 里 工作 并 不 是 一 件 吸 引 人 的 事 一 一 它 成 了 其 他 团队 的 “垃圾 场 ', 这 些 团 队 问 头 开 
发 着 各 自 的 功能 。GWS 团队 面临 很 多 问题 ， 例 如 构建 和 测试 花费 的 时 间 长 ， 代 码 不 经 测试 便 进 
入 生产 环境 ， 各 个 团队 偶尔 提交 的 大 量 代 码 相 互 冲突 。 


这 样 的 工作 方式 造成 了 极其 粳 糕 的 后 果 一 一 搜索 结果 出 错 ， 响 应 速度 有 时 慢 得 让 人 无 法 接 
受 。 这 不 仅 可 能 造成 经 济 损失 ， 而 且 还 会 失去 客户 的 信任 。 

Mike Bland 在 描述 部 署 变 更 的 开发 人 员 时 说 道 :“ 息 惧 是 心灵 杀手 。 它 使 新 手 不 敢 变 更 , 因为 他 
们 不 了 解 系统 。 它 也 使 老手 不 敢 变 更 , 因为 他 们 太 了 解 系统 。 "他 所 在 的 团队 致力 于 解决 这 个 问题 。 








































































































GD Mike Bland 说 ， 谷 歌 招聘 大 量 才华 横 溢 的 开发 人 员 的 一 个 后 果 是 出 现 了 “冒充 者 综合 征 "。 这 是 一 个 心理 学 术语 ， 
用 于 非 正式 地 描述 那些 无 法 内 化 个 人 成 就 的 人 。 维 基 百 科 指 出 :“ 尽 管 他 们 的 能 力 已 经 被 外 部 证 据 证 明了 ， 但 是 
那些 有 冒充 者 综合 征 的 人 还 是 觉得 其 他 人 在 欺骗 自己 ,并 且 没 有 成 就 感 。 他 们 认为 自己 的 成 功 只 是 源 于 运气 和 机 
遇 ， 或 者 认为 自己 误 使 他 人 以 为 自己 能 力 超群 。 
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Bharat Mediratta 是 GWS 团队 的 负责 人 ， 他 相信 自动 化 测试 可 以 解决 问题 。 正 如 Mike Bland 
所 说 :“ 他 们 制定 了 一 个 规则 : GWS 团队 不 接受 任何 没有 通过 自动 化 测试 的 变更 。 他 们 搭建 了 持 
续集 成 流水 线 ， 同 时 设置 了 测试 覆盖 率 监 控 指 标 ， 确 保 逐 渐 提 高 测试 覆盖 率 ,， 并 编写 了 测试 规范 
和 指南 ， 坚 持 让 团队 内 部 和 外 部 的 相关 人 员 都 照章 执行 。 


这 些 措施 取得 了 令 人 惊叹 的 成 果 。Mike Bland 继续 说 道 :“GWS 团队 迅速 成 为 公司 最 有 效率 
的 一 流 团 队 ， 每 周 都 会 整合 来 自 于 不 同 团队 的 大 量变 更 ， 同 时 还 能 保持 高 效 的 发 布 计划 。 团 队 的 
新 成 员 能 快速 地 对 这 个 复杂 的 系统 做 出 贡献 ， 这 些 当然 归功 于 良好 的 测试 覆盖 率 和 代码 健康 度 。 
最 终 ， 他 们 实施 的 激进 措施 让 Google.com 首页 的 功能 迅速 扩展 ， 并 以 惊人 的 速度 在 竞争 激烈 的 
技术 领域 里 东 壮 成 长 。? 


在 谷歌 这 样 规模 庞大 且 快 速成 长 的 公司 中 ，GWS 团队 只 是 一 个 小 团队 ， 不 过 他 们 希望 能 在 
公司 内 部 推广 自己 的 实践 。 于 是 ，Testing Grouplet 诞生 了 ， 这 个 非 正式 团队 由 工程 师 组 成 ， 他 们 
希望 能 整体 改进 谷歌 的 自动 化 测试 实践 。 在 随后 的 5 年 中 , 他 们 把 自动 化 测试 文化 推广 到 了 谷歌 
的 所 有 团队 。” 


现在 ， 当 谷歌 的 开发 人 员 提 交代 码 时 ,就 会 自动 触发 测试 套件 , 它 包 含 成 千 上 万 个 自动 化 测 
试用 例 。 只 有 妆 提 交 的 代码 通过 自动 化 测试 后 , 才 会 被 自动 地 合并 到 主干 ,并 可 以 部 署 到 生产 环 
境 。 谷 歌 每 小 时 或 每 天 都 在 构建 很 多 程序 ,然后 从 中 选择 可 发 布 的 版 本 。 所 有 人 都 秉持 “绿色 提 


交 ”( Push on Green ) 的 交付 理念 。 


对 于 以 前 的 谷歌 而 言 , 可 能 随时 发 生 高 度 危 急 的 状况 , 一 次 代码 部 署 错误 就 可 能 造成 其 他 软 
件 发 生 故障 〈 例 如 变更 全 局 基础 设施 ， 或 者 在 共享 的 核心 依赖 库 中 引入 了 一 个 缺陷 )。 


Eran Messeri 是 谷歌 基础 设施 组 的 工程 师 , 他 指出 :“ 大 规模 事故 偶尔 会 发 生 。 你 会 收 到 不 计 
其 数 的 告警 消息 ， 工 程 师 会 亲自 找 上 门 来 。[ 当 部 署 流水 线 坏 掉 时 ，] 团 队 必须 立即 修复 它 ， 因 为 
它 阻 得 了 开发 人 员 提交 人 代码。 因此， 我 们 也 期 望 它 能 轻易 回 滚 。 


谷歌 工程 师 的 敬业 精神 和 高 度 信任 的 公司 文化 , 让 这 个 系统 有 效 地 运转 起 来 。 在 这 样 的 公 羽 
中 , 每 个 人 都 想 做 好 本 职工 作 , 而 且 都 有 快速 发 现 并 修复 问题 的 能 力 。Eran Messeri 说 :“ 在 谷歌 ， 
并 没有 人 硬性 的 规定 ,例如 “如 果 你 把 十 几 个 生产 项 目 都 搞 磺 了， 必须 按照 服务 水 平 协议 的 要 求 在 
10 分 钟 内 解决 问题 。 相 反 ， 各 个 团队 相互 尊重 ， 所 有 人 都 为 了 保证 部 署 流水 线 正 常 运行 而 共同 
努力 。 其 实 大 家 都 明白 : 你 可 能 会 在 某 天 无 意 搞 砸 我 的 项 目 ,而 我 在 第 二 天 也 可 能 会 不 小 心 搞 砸 
你 的 项 目 。” 


Mike Bland 和 Testing Grouplet 团队 所 取得 的 成 就 使 谷歌 成 为 全 世界 极 具 生 产 力 的 技术 组 织 。 


















































































































































@ 他 们 制订 了 培训 计划 ， 张 贴 了 著名 的 “厕所 小 报 ”( 贴 在 洗手 间 里 )， 做 了 测试 认证 路 线 图 和 认证 项 目 ， 并 举办 了 
很 多 “修复 日 ”( 即 改善 内 电 战 ) 活动 ， 帮 助 其 他 团队 优化 自动 化 测试 流程 。 这 些 举措 将 GWS 团队 的 成 果 快速 地 
复制 到 其 他 团队 。 
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到 2013 年 , 谷歌 的 自动 化 测试 和 持续 集成 使 超过 4000 个 小 型 团队 协同 工作 , 并 保持 着 高 生产 力 。 
他 们 同时 进行 着 开发 、 集 成 、 测 试 和 部 署 。 所 有 的 代码 都 统一 存储 在 包含 数 十 亿 文件 的 共享 代码 
仓库 中 ,所 有 文件 都 经 过 持续 构建 和 集成 ,每 个 月 会 变更 50% 的 代码 。 以 下 是 一 些 令 人 印象 深刻 
的 统计 数据 : 


口 每 天 4 万 次 代码 提交 ; 

口 每 天 5 万 次 代码 构建 (在 工作 日 中 可 能 超过 9 万 次 ); 

口 拥有 12 万 个 自动 化 测试 套件 ; 

口 每 天 运行 7500 万 个 测试 用 例 ; 

口 拥有 100 多 名 专门 执行 测试 工程 、 持 续集 成 和 发 布 工具 的 工程 师 ， 他 们 负责 提升 开发 人 
员 的 生产 效率 ( 占 R&D 人 员 总 数 的 0.5% )。 


本 章 接 下 来 将 描述 如 何 复制 上 述 实践 。 

















10.1 对 代码 和 环境 做 持续 构建 、 测 试 和 集成 


我 们 的 目标 是 让 开发 人 员 在 日 常 工作 中 创建 自动 化 测试 套件 ， 并 在 开发 早期 就 保证 产品 质 
量 。 这样 做 有 利于 建立 快速 的 反馈 回路 ,帮助 开发 人 员 尽 早 发 现 问 题 , 并 在 约束 ( 例如 时 间 和 资 
源 ) 最 少时 快速 解决 问题 。 


创建 自动 化 测试 套件 的 目的 是 提高 集成 频率 , 使 测试 从 阶段 性 活动 演变 成 持续 性 活动 。 通过 
































搭建 部 署 流水 线 ( 见 图 10-1 )， 当 新 的 变更 进入 版 本 控制 系统 时 ,就 会 触发 一 系列 自动 化 测试 。" 


提交 阶段 图 c p: 
EE 国人 于 动 ) 国人 于 动 国人 于 动 国人 于; 


(自动 化 ) (手动 ) 





= 自动 化 审批 
m 吵 手动 审批 
图 10-1 ”部署 流 水 线 
( 来源 :《 持 续 交 付 : 发布 可 靠 软件 的 系统 方法 》) 
部 署 流 水 线 这 个 词 来 源 于 Jez Humble 和 David Farley 合 著 的 《持续 交付 : 发 布 可 靠 软 件 的 系 

统 方法 》 一 书 。 部 署 流水 线 确 保 所 有 检 入 版 本 控制 系统 的 代码 都 是 自动 化 构建 的 ， 并 在 类 生产 环 
境 中 测试 过 。 这 样 一 来 ， 当 开发 人 员 提 交代 码 变更 后 , 立即 就 能 获得 关于 构建 、 测 试 或 集成 错误 
的 反馈 , 从 而 使 开发 人 员 能 够 立刻 修复 这 些 错误 。 正 确 的 持续 集成 实践 总 是 可 以 确保 代码 处 于 可 
部 署 和 可 交付 的 状态 。 














GD 开发 过 程 中 的 持续 集成 ( continuous integration ，CI ) 通常 是 指 将 多 个 代码 分 支持 续集 成 到 主干 中 ， 并 确保 它们 都 
会 通过 单元 测试 。 然 而 ， 在 持续 交付 和 DevOps 中 ， 持 续集 成 还 要 求 在 类 生产 环境 中 运行 应 用 ， 并 且 通 过 集成 测 
试 和 验收 测试 。Jez Humble 和 David Farley 为 了 消除 歧义 ， 称 后 者 为 CI+。 本 书 中 的 持续 集成 都 是 指 CI+ 实 践 。 
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为 了 实现 这 一 点 , 必须 在 专用 环境 中 创建 自动 化 构建 和 测试 流程 。 这 样 做 至 关 重 要 , 原因 如 下 。 


D 在 任何 时 候 ， 构 建 和 测试 流程 都 能 够 运行 ， 无 论 工 程 师 的 个 人 工作 习惯 如 何 。 

口 独立 的 构建 和 测试 流程 确保 工程 师 能 理解 构建 、 打 包 、 运 行 和 测试 代码 所 需 的 全 部 依赖 

项 ( 即 消除 “应 用 在 开发 人 员 的 笔记 本 电脑 上 能 运行 , 但 是 在 生产 环境 中 不 行 ”的 问题 )。 

口 将 应 用 的 可 执行 文件 和 配置 打包 , 并 可 以 在 环境 中 重复 安装 ( 例如 Linux 上 的 RPM 、yum 
和 npm 或 Windows 上 的 OneGet， 也 可 使 用 开发 框架 特定 的 打包 格式 ， 如 Java 的 EAR 和 
WAR 文 件 ， 或 Ruby 的 gem 文件 )。 

口 将 应 用 打包 到 可 部 署 的 容器 中 (例如 Docker、Rkt、LXD 和 AMI )， 而 不 是 把 程序 代码 打 

包 。 

口 以 一 致 、 可 重复 的 方式 进行 类 生产 环境 的 配置 〈 例 如 从 环境 中 移 除 编译 器 ， 关 闭 调试 标 


志 等 )。 


每 次 代码 变更 之 后 , 部署 流水 线 都 会 确认 代码 已 经 成 功 地 集成 到 类 生产 环境 中 。 通 过 部 署 流 
水 线 这 个 平台 ,测试 人 员 进 行 验收 测试 和 可 用 性 测试 ， 以 及 自动 化 性 能 测试 和 安全 性 验证 。 


此 外 ,部 署 流水 线 将 以 自 服务 的 方式 为 用 户 验 收 测试 、 集 成 测试 和 安全 测试 提供 环境 。 随 着 
不 断 改 进 ， 它 还 会 用 来 管理 所 有 相关 活动 ， 涉 及 从 版 本 控制 系统 到 部 署 的 全 过 程 。 


目前 存在 各 种 各 样 的 部 署 流水 线 工 具 ， 其 中 许多 是 开源 软件 〈 例如 Jenkins 、ThoughtWorks 
GoCD 、Concourse 、Bamboo 、Microsoft Team Foundation Server、TeamCity 和 GitLab CI， 以 及 基 
于 云 的 解决 方案 ， 例 如 Travis CI 和 Snap )。” 


部 署 流 水 线 的 第 一 个 环节 是 提交 阶段 ,这 个 阶段 完成 代码 构建 和 打包 ,运行 自动 化 单元 测试 ， 
并 执行 其 他 各 种 验证 , 如 静态 代码 分 析 、 测试 覆盖 率 分 析 、 重复 代 码 检 查 以 及 代码 风格 检查 等 。 “如 
果 成 功 , 就 会 进入 验收 阶段 ,自动 地 把 在 提交 阶段 创建 的 包 部 署 到 类 生产 环境 中 ,再 执行 自动 化 
验收 测试 。 

当 版 本 控制 系统 检测 到 代码 变更 后 , 将 一 次 性 生成 软件 包 。 接 下 来 ,软件 包 将 在 整个 部 署 流 
水 线 中 使 用 。 这 种 方式 保证 了 集成 测试 环境 、 类 生产 环境 ,以 及 生产 环境 的 代码 一 致 性 ,可 以 有 
效 减少 难 定位 的 下 游 错 误 (例如 ,所 使 用 的 编译 器 、 编 译 器 标志 参数 、 库 版 本 或 配置 不 一 致 )。” 































































































































































































@ 如 果 在 部 署 流水 线 中 使 用 容器 技术 ， 而 且 采 用 微服 务 架构 ， 就 能 构建 不 可 变 的 部 署 包 。 开 发 人 员 在 其 工作 站 上 使 
用 和 生产 环境 相同 的 容器 环境 ,组装 和 运行 服务 的 所 有 组 件 ， 构 建 和 运行 更 多 的 测试 ， 而 不 只 是 在 测试 服务 器 上 
做 这 些 工 作 。 这 样 做 可 以 提供 更 快 的 工作 反馈 。 
@) 甚至 可 能 需要 在 将 代码 变更 提交 到 版 本 控制 系统 之 前 ， 就 运行 这 些 工 具 ( 例如 使 用 预 提 交 钩 子 )。 可 以 在 开发 人 
员 的 集成 开发 环境 (IDE， 用 于 编辑 、 编 译 和 运行 代码 ) 中 运行 这 些 工 具 ， 以 得 到 更 快 的 反馈 。 
@@ 还 可 以 使 用 Docker 等 容器 作为 封装 机 制 。 容 器 具有 一 次 打包 后 ,在 任何 环境 里 一 致 运行 的 能 力 。 这些 容器 镜像 的 

创建 是 构建 流程 的 一 部 分 ， 它们 可 以 在 任何 环境 中 快速 地 部 团 和 运行 。 因 为 所 有 环境 运行 同一 个 容器 镜像 ， 所 以 
容器 能 够 帮助 我 们 构建 一 致 的 部 署 包 。 
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部 署 流水 线 的 目的 是 给 价值 流 中 的 所 有 成 员 (〈 特别 是 开发 人 员 ) 提供 尽 可 能 快速 的 反馈 ,， 帮 
助 他 们 及 时 识别 可 能 让 代码 偏离 可 部 署 状 态 的 变更 , 包括 代码 、 环 境 因素 、 自 动 化 测试 甚至 部 署 
流水 线 基础 设施 (例如 Jenkins 的 设置 ) 的 任何 改变 。 


因此 ,对 于 开发 流程 来 说 , 部署 流水 线 基 础 设施 和 版 本 控制 系统 同等 重要 。 部 署 流 水 线 还 存 
储 了 每 一 份 代码 的 构建 历史 , 包括 某 次 构建 执行 过 哪些 测试 , 测试 结果 如 何 , 以 及 部 署 到 了 什么 
环境 中 。 结合 版 本 控制 系统 中 的 历史 信息 , 可 以 快速 地 找到 导致 部 署 流 水 线 失 败 的 原因 和 可 能 的 
修复 方法 。 

这 些 信息 还 有 助 于 审计 和 合 规 历 史 数 据 (证据 在 日 常 工作 中 自动 生成 )。 

有 了 部 署 流水 线 基础 设施 之 后 ， 还 必须 有 持续 集成 实践 ， 这 需要 以 下 3 个 方面 的 配合 : 
口 全 面 且 可 靠 的 自动 化 测试 套件 ， 用 于 验证 可 部 署 状 态 ; 
口 一 种 在 验证 测试 失败 时 ， 可 以 “ 停 掉 整 条 生产 线 ” 的 文化 ; 
口 开发 人 员 在 主干 上 工作 ， 并 小 批量 提交 变更 ， 而 不 是 在 生命 周期 很 长 的 特性 分 支 上 工作 。 


下 一 节 将 介绍 为 什么 需要 实现 快速 可 靠 的 自动 化 测试 ， 以 及 如 何 实现 。 
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自动 化 测试 基础 设施 用 于 验证 可 部 署 状 态 , 即 版 本 控制 系统 中 的 所 有 内 容 都 处 于 可 构建 和 可 
部 署 的 状态 。 为 何如 此 强调 执行 持续 集成 和 持续 测试 的 必要 性 呢 ? 可 以 想象 一 下 ,如果 仅 定期 执 
行 这 些 操作 ( 例如 只 执行 夜间 构建 )， 将 会 发 生 什么 ? 


假设 团队 由 10 名 开发 人 员 组 成 ， 每 人 每 天 仅 将 代码 变更 检 入 版 本 控制 系统 一 次 ， 而 某 个 开 
发 人 员 的 代码 变更 导致 夜间 构建 和 测试 作业 失败 ,在 这 种 情况 下 ,团队 第 二 天 才能 发 现 作业 失败 ， 
而 且 可 能 需要 花 几 个 小 时 才能 找 出 问题 的 原因 和 解决 方法 。 


更 糟 的 是 ,如 果 问 题 的 原因 根本 就 不 是 代码 变更 ,而 是 测试 环境 ( 例如 某 个 错误 的 环境 配置 )， 
那么 开发 团队 很 可 能 认为 问题 已 得 到 解决 , 因为 所 有 的 单元 测试 都 通过 了 。 可 是 在 夜间 构建 的 过 
程 中 ， 集 成 测试 仍 会 失败 。 


让 问题 变 得 更 复杂 的 是 ， 开 发 团队 在 新 的 一 天 里 又 将 向 版 本 控制 系统 检 入 10 个 变更 ， 而 每 
个 变更 都 有 可 能 引入 错误 ， 导 致 自动 化 测试 失败 ， 这 进一步 增加 了 定位 和 解决 问题 的 难度 。 


总 之 ,反馈 不 及 时 或 者 周期 长 会 帝 来 极 大 的 危害 ， 对 于 较 大 的 开发 团队 而 言 则 更 甚 。 当 开发 
部 门 有 几 十 、 几 百 ， 其 至 几 千 个 开发 人 员 时 ， 每 天 所 有 人 都 往 版 本 控制 系统 里 提交 代码 变更 ， 
问题 会 更 加 严重 。 结 果 将 导致 代码 构建 和 自动 化 测试 频繁 失败 ， 以 至 于 开发 人 员 不 再 检 和 人 变更 
(“反正 构建 和 测试 总 是 失败 , 为 什么 要 自 找 麻烦 ? ”), 转 而 等 到 项 目 结束 时 , 再 去 集成 所 有 代码 。 
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这 样 一 来 , 所 有 不 期 望 发 生 的 引 
部 署 故障 等 。” 














帮 情 全 都 会 发 生 , 包括 大 批量 和 大 规模 的 代码 集成 ， 以 及 生产 环境 





为 了 避免 以 上 情况 出 现 , 每 当 有 新 的 变更 检 入 版 本 控制 系统 时 , 就 需要 在 构建 和 测试 环境 中 
运行 快速 的 自动 化 测试 。 通 过 这 种 方式 ， 可 以 像 谷歌 的 GWS 团队 那样 ， 立 刻 发 现 和 解决 所 有 集 
成 问题 。 这 样 就 能 维持 较 小 的 代码 集成 量 ， 并 保证 代码 始终 处 于 可 部 署 状态 。 


通常 ， 自 动 化 测试 从 快 到 慢 分 为 如 下 几 类 。 


口 单元 测试 : 通常 独立 测 
计 运 行 。 由 于 诸多 原因 
的 方式 ， 隔 离 数 据 库 和 
是 调用 数据 库 )。” 

口 验收 测试 : 通常 整体 测 














试 每 个 方法 、 类 或 函数 。 它 的 目的 是 确保 代码 按照 开发 人 员 的 设 
( 如 需要 进行 快速 和 无 状态 的 测试 )， 通 常会 使 用 打桩 〈stub out ) 
其 他 外 部 依赖 ( 例如 ， 把 函数 修改 为 返回 静态 的 预定 义 值 ， 而 不 




















试 应 用 ,确保 各 个 功能 模块 按照 设计 正常 工作 (例如 符合 用 户 故 








事 的 业务 验收 标准 ，API 能 正确 调用 )， 而 且 没 有 引入 回归 错误 ( 即 没 有 破坏 以 前 正常 的 
功能 )。Jez Humble 和 David Farley 认为 单元 测试 和 验收 测试 的 区 别 在 于 :“ 单 元 测试 的 目 





的 是 证 明 应 用 的 某 一 部 











分 符合 程序 员 的 预期 …… 验 收 测试 的 目的 则 是 证 明 应 用 能 满足 客 





户 的 愿望 ， 而 不 仅仅 是 符合 程序 员 的 预期 。 ”在 构建 的 版 本 通过 单元 测试 后 ， 部 署 流 水 线 


就 对 其 执行 验收 测试 。 























任何 通过 验收 测试 的 构建 版 本 通常 都 可 用 于 手动 测试 〈 例 如 探索 























性 测试 、 用 户 界面 测试 等 ) 和 集成 测试 。 


口 集成 测试 : 保证 应 用 能 





与 生产 环境 中 的 其 他 应 用 和 服务 正确 地 交互 ， 而 不 再 调用 打桩 的 








接口 。Jez Humble 和 David Farley 写 道 :“ 大 部 分 系统 集成 测试 工作 都 是 在 部 署 应 用 的 新 





版 本 ， 并 使 它们 能 正常 


























协作 。 在 这 种 情况 下 ， 冒 烟 测 试 通常 是 指针 对 整个 应 用 进行 的 一 


组 成 熟 的 验收 测试 。” 只 有 通过 了 单元 测试 和 验收 测试 的 构建 版 本 才能 执行 集成 测试 。 




















为 集成 测试 通常 是 脆弱 
收 测试 期 间 ， 尽 可 能 多 




















的 ， 所 以 应 该 尽量 减少 集成 测试 的 次 数 ， 并 且 要 在 单元 测试 和 验 
地 找 出 缺陷 。 一 个 至 关 重 要 的 架构 需求 是 ， 在 执行 验收 测试 时 能 


够 调用 虚拟 或 模拟 的 远程 服务 。 


当面 对 项 目 最 后 期 限 的 压力 时 ,， 无论“ 完成 ”的 定义 如 何 ， 开 发 人 员 都 可 能 不 再 在 日 常 工作 
中 编写 单元 测试 。 为 了 发 现 并 杜绝 这 种 情况 ， 需 要 度量 测试 覆盖 率 〈 取决 于 类 数 、 代 码 行 数 、 排 
列 组 合 等 )， 还 要 把 度量 结果 可 视 化 ， 其 至 可 以 在 测试 覆盖 率 低 于 一 定 水 平时 ( 例如 当 类 的 单元 
测试 率 不 足 80% 时 ) 使 测试 套件 的 验证 结果 显示 失败 。™ 




















J) 正 是 这 个 问题 推动 了 持续 集成 实践 的 发 展 。 
@ 包括 stub、mock 和 服务 虚拟 化 在 内 的 很 多 架构 和 测试 技术 都 可 用 于 处 理 需 要 外 部 集成 点 输入 的 测试 。 这 对 验收 测 





























试 和 集成 测试 更 加 重要 ， 它 们 依赖 的 外 部 状态 会 更 多 。 



































@) 只 有 当 团 队 已 经 重视 自动 化 测试 之 后 ， 才 能 这 样 做 一 一 开发 人 员 和 管理 人 员 很 容易 在 这 类 指标 上 进行 博弈。 
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Martin Fowler 曾 说 :“[ 通 常 ，]10 分 钟 的 构建 [和 测试 过 程 ] 是 完全 合理 的 ……[ 我 们 首先 ] 进 行 
编译 ,然后 在 数据 库 完 全 打桩 的 情况 下 ， 在 本 地 执行 单元 测试 。 这 样 的 测试 非常 快 , 原则 上 可 以 
在 10 分 钟 以 内 完成 。 但 是 ， 这 种 测试 不 会 发 现 大 规模 交互 的 bug， 特 别 是 涉及 与 真实 的 数据 库 
交互 的 bug。 在 第 二 阶段 要 运行 的 验收 测试 则 不 同 ， 它 会 访问 真实 的 数据 库 ， 并 涉及 很 多 端 到 端 
的 交互 行为 。 这 套 测 试 可 能 需要 运行 几 个 小 时 。 

















10.2.1 在 自动 化 测试 中 尽早 发 现 错误 


自动 化 测试 套件 的 一 个 设计 目标 是 能 尽早 地 在 测试 中 发 现 错误 。 因 此 , 要 在 执行 那些 耗 时 的 
自动 化 测试 ( 如 验收 测试 和 集成 测试 ) 之 前 ， 执 行 完 速度 更 快 的 自动 化 测试 (如 单元 测试 ) 这 
两 种 测试 都 要 先 于 手动 测试 执行 。 


根据 以 上 原则 ,可 以 得 出 一 个 推论 : 最 快速 的 测试 应 该 尽 可 能 多 地 发 现 错误 。 如 果 大 多 数 错 
误 都 是 在 验收 测试 和 集成 测试 阶段 发 现 的 , 那么 开发 人 员 收 到 反馈 的 速度 要 比 单元 测试 发 现 错误 
时 慢 上 好 几 个 数量 级 一 一 集成 测试 需要 用 到 稀缺 旦 复杂 的 集成 测试 环境 ( 每 次 只 能 供 一 个 团队 使 
用 )， 因 此 反馈 更 慢 。 

此 外 , 重 现 集成 测试 发 现 的 错误 不 但 难度 高 ， 而 且 很 耗 时 ， 甚 至 连 验证 错误 已 被 修复 也 很 困 
难 ( 即 开 发 人 员 编 写 了 修复 补丁 ,但 是 需要 等 上 4 小 时 才能 知道 是 否 通过 集成 测试 )。 

因此 , 每 当 验 收 测试 或 集成 测试 发 现 一 个 错误 ， 就 应 该 编写 相应 的 单元 测试 ， 以 便 更 快 、 更 
早 、 更 廉价 地 识别 这 个 错误 。Martin Fowler 描述 过 “理想 的 测试 金字 塔 ”这 一 概念 ， 即 使 用 单元 
测试 捕获 大 部 分 错误 ， 如 图 10-2 所 示 。 相 比 之 下 ， 许 多 测试 项 目 恰 恰 相 反 ， 人 们 把 大 部 分 时 间 
和 精力 都 花 在 手动 测试 和 集成 测试 上 。 
理想 的 测试 金字 塔 与 非 理想 的 测试 倒 金 字 塔 












































手动 测试 


基于 测 程 的 
手动 测试 
自动 化 GU 自动 化 GUI 测试 
测试 
自动 化 API 测 试 集成 测试 








自动 化 集成 测试 届时 
自动 化 组 件 测试 测试 
自动 化 单元 测试 
理想 的 自动 化 测试 金字 塔 非 理想 的 自动 化 测试 倒 金字 塔 








图 10-2 ”理想 的 测试 金字 塔 与 非 理想 的 测试 倒 金 字 塔 
(来 源 : Martin Fowler 的 “测试 金字 塔 ”) 
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如 果 编 写 和 维护 单元 测试 或 验收 测试 既 困 难 又 昂贵 , 说明 架构 可 能 过 于 耦合 , 即 各 个 模块 之 
间 不 再 有 (或 者 从 来 就 没有 ) 明显 的 边界 。 在 这 种 情况 下 ， 需 要 构建 更 松散 耦合 的 系统 ， 使 模块 
可 以 不 依赖 于 集成 环境 进行 独立 测试 ,即使 对 于 最 复杂 的 应 用 ,也 可 以 在 几 分 钟 内 完成 验收 测试 。 





10.2.2 ” 尽 可 能 并 行 地 快速 执行 测试 


我 们 希望 能 快速 地 执行 测试 , 所 以 需要 设计 并 行 测试 , 这 可 能 会 用 到 多 台 服 务 器 。 我 们 还 想 
并 行 地 运行 不 同类 型 的 测试 , 例如 ， 当 某 次 构建 通过 验收 测试 后 ， 就 可 以 并 行 地 执行 安全 测试 和 
性 能 测试 ， 如 图 10-3 所 示 。 在 构建 版 本 通过 所 有 自动 化 测试 之 前 ， 手 动 的 探索 性 测试 可 以 做 ， 也 
可 以 不 做 ( 探索 性 测试 可 以 加 快 反馈 速度 , 但 也 可 能 针对 最 终 会 失败 的 构建 版 本 进行 手动 测试 )。 














ae》 自动 化 审批 
生产 环境 
ee 手动 审批 (手动 ) 





容量 测试 


提交 阶段 验收 阶段 
( 


自动 化 ) | 人 (自动 化 ) 


(自动 化 ) 





L_ 探 ee 用 户 验收 测试 
(手动 ) 


图 10-3 ”并行 地 执行 自动 化 测试 和 手动 测试 
(来 源 :《 持 续 交 付 : 发 布 可 靠 软件 的 系统 方法 》 Kindle 版 ) 


任何 通过 所 有 自动 化 测试 的 构建 版 本 都 可 用 于 探索 性 测试 以 及 其 他 形式 的 手动 测试 或 资源 
密集 型 测试 (如 性 能 测试 )。 应 该 尽 可 能 频繁 和 全 面 地 执行 所 有 这 些 测试 ， 要 么 持续 执行 ， 要么 
定期 执行 。 

任何 测试 人 员 ( 包括 所 有 开发 人 员 ) 都 应 该 使 用 通过 了 所 有 自动 化 测试 的 最 新 版 本 ， 而 不 是 
等 待 开 发 人 员 将 某 个 版 本 打上 可 测试 的 标签 。 这 样 做 可 以 保证 尽早 进行 测试 工作 。 





10.2.3” 先 编写 自动 化 测试 


要 确保 自动 化 测试 可 靠 ， 最 有 效 的 一 个 方法 是 通过 测试 驱动 开发 ( Test-Driven Development， 
TDD ) 和 验收 测试 驱动 开发 ( Acceptance Test-Driven Development，ATDD ) 等 技术 在 日 常 工作 中 
编写 自动 化 测试 。 在 对 系统 做 任何 变更 时 ,都 要 先 编写 一 个 自动 化 测试 用 例 ， 执行 并 确保 测试 失 
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败 ， 然 后 再 编写 实现 功能 的 代码 ， 并 且 让 代码 通过 测试 。 


Kent Beck 在 20 世纪 90 年 代 末 将 TDD 作为 极限 编程 的 一 部 分 提 了 出 来 。 这 项 技术 共有 以 下 
3 个 步骤 : 


(1) 确保 测试 失败 ,“ 为 想 要 增加 的 功能 编写 测试 用 例 ”， 检 入 测试 用 例 ; 
(2) 确保 测试 通过 , “编写 实现 功能 的 代码 ， 直 到 测试 通过 ”"， 检 入 代码 ; 
(3)“ 重 构 新 旧 代 码 ， 优 化 结构 ”"， 确 保 测 试 都 能 通过 ， 表 次 检 入 代码 。 


自动 化 测试 套件 和 程序 代码 一 同 被 检 入 版 本 控制 系统 ， 以 提供 一 套 可 用 且 最 新 的 系统 规范 。 
如 果 开 发 人 员 想 了 解 如 何 使 用 系统 ， 可 以 查看 测试 套件 ， 找 到 演示 如 何 调用 系统 API 的 示例 。” 
























































10.2.4 尽量 将 手动 测试 自动 化 


自动 化 测试 的 目的 是 尽 可 能 多 地 发 现代 码 错误 ， 并 且 减 少 对 手动 测试 的 依赖 。Elisabeth 
Hendrickson 在 2013 年 的 Flowcon 大 会 上 做 了 题 为 “On the Care and Feeding of Feedback Cycles” 
的 演讲 ， 她 提出 :“ 虽 然 测试 可 以 自动 化 ， 但 是 质量 的 创造 过 程 不 可 以 。 让 人 类 去 执行 那些 本 应 
该 自动 化 执行 的 测试 是 在 浪费 人 类 的 潜能 。” 


通过 执行 自动 化 测试 , 所 有 测试 人 员 ( 当然 包括 开发 人 员 ) 得 以 去 做 那些 不 能 被 自动 化 的 高 
价值 活动 ， 如 探索 性 测试 或 优化 测试 流程 本 身 。 


然而 , 单纯 地 将 所 有 手动 测试 自动 化 ,可 能 产生 不 良 后 果 一 一 谁 都 不 希望 自动 化 测试 不 可 靠 
或 出 现 误 报 ( 即 因为 代码 正确 ， 所 以 测试 本 应 该 通过 ,可 是 由 于 性 能 不 佳 、 超 时 、 不 受 控 的 启动 
状态 ， 或 者 因为 使 用 了 数据 库 打 桩 或 共享 的 测试 环境 而 导致 的 非 预期 状态 ， 使 得 测试 失败 )。 


产生 误 报 的 不 可 靠 测试 将 导致 严重 的 问题 : 它们 浪费 宝贵 的 时 间 (例如 开发 人 员 不 得 不 再 执 
行 一 遍 测 试 ， 以 确认 真 的 存在 问题 )， 增 加 执行 和 解释 测试 结果 的 总 工作 量 ， 还 经 常 导致 开发 人 
员 完 全 忽略 测试 结果 ， 甚 至 彻底 关闭 自动 化 测试 ， 从 而 能 够 专注 于 编写 代码 。 


































































































过 来 义 给 整个 价值 流 带 来 压力 。 


为 了 解决 这 个 问题 , 执行 少量 可 靠 的 自动 化 测试 , 往往 优 于 执行 大 量 手动 测试 或 不 可 靠 的 自 
动 化 测试 。 因 此 , 应 该 专注 于 将 能 验证 业务 目标 的 测试 自动 化 。 如 果 在 放弃 茶 个 测试 之 后 ,生产 
环境 出 现 缺 陷 ， 那 么 应 该 将 这 个 测试 重新 加 入 手动 测试 套件 ， 但 最 终 还 是 应 该 将 它 自动 化 。 











Q@ Nachi Nagappan 、E. Michael Maximilien 和 Laurie Williams ( 分 别 来 自 Microsoft Research 、IBM Almaden Labs 和 北 
卡罗来纳 州立 大 学 兽 经 做 过 一 项 研究 ,该 研究 表明 ,使 用 TDD 的 团队 与 不 使 用 TDD 的 团队 相 比 ,虽然 多 花 15% ~ 
35% 的 时 间 ， 但 代码 的 缺陷 密度 能 降低 60% ~ 90%。 
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正如 Macys.com 的 前 质量 工程 、 发 布 工程 和 运营 副 总 裁 Gary Gruver 所 说 :“ 对 于 该 大 型 零售 
电子 商务 网 站 , 我 们 从 每 10 天 执行 1300 个 手动 测试 变 为 每 次 代码 提交 只 执行 10 个 自动 化 测试 。 
执行 值得 信任 的 测试 远 比 执行 不 可 靠 的 测试 要 好 。 随 着 时 间 的 推移 ， 我 们 的 测试 套件 逐渐 壮大 ， 
目前 有 几 十 万 个 自动 化 测试 。 


换言之 ,应 该 从 少量 可 靠 的 自动 化 测试 开始 ,并 随 着 时 间 的 推移 不 断 增 加 。 这 样 一 来 ,系统 
的 保障 级 别 随 之 提高 ， 并 能 快速 检测 出 所 有 让 代码 偏离 可 部 署 状态 的 变更 。 














10.2.5 在 测试 套件 中 集成 性 能 测试 


在 集成 测试 期 间或 者 应 用 部 署 到 生产 环境 之 后 , 我 们 经 常会 发 现 应 用 的 性 能 不 佳 。 性 能 问题 
往往 很 难 检测 ， 性 能 可 能 随 着 时 间 的 推移 逐渐 变 差 , 在 发 现 问题 时 早 就 为 时 已 晚 ( 例如 没有 索引 
的 数据 库 查询 )。 而 且 ， 很 多 问题 都 难以 解决 ， 尤 其 是 当 问题 源 于 以 前 所 做 的 架构 决策 时 ， 或 者 
源 于 之 前 没有 发 现 的 网 络 、 数 据 库 、 存 储 或 其 他 系统 的 限制 时 ， 更 是 如 此 。 


编写 和 执行 自动 化 性 能 测试 的 目标 是 验证 整个 应 用 栈 ( 代码、 数据 库 、 存 储 、 网 络 、 虚 拟 化 
等 ) 的 性 能 ,并 把 它 作为 部 署 流水 线 的 一 部 分 , 这样 才 能 尽早 发 现 问题 ， 并 以 最 低 的 成 本 和 最 快 
的 速度 解决 问题 。 


如 有 果 能 了 解 应 用 和 环境 在 类 生产 负载 下 的 表现 , 就 可 以 做 出 更 好 的 容量 规划 , 以 及 检测 出 如 













































































口 数据 库 查 询 时 间 非 线性 增加 ( 例如 忘记 为 数据 库 创 建 索引 ， 导 致 页 面 加 载 时 间 从 100 毫 
秒 增加 为 30 秒 ) 
口 代码 变更 导致 数据 库 调 用 次 数 、 存 储 空间 使 用 量 或 者 网 络 流量 增加 数 倍 。 


可 以 将 能 够 并 行 执行 的 验收 测试 作为 性 能 测试 的 基础 。 例 如 , 假设 对 于 一 个 电子 商务 网 站 来 
说 ,“ 搜 索 ” 和 “结账 ”是 两 个 高 价值 功能 ;即使 在 高 负载 下 ， 这 两 个 功能 也 必须 性 能 良好 。 为 
了 测试 这 一 点 ， 可 以 并 行 地 执行 数 千 个 分 别针 对 这 两 个 功能 的 验收 测试 。 

因为 执行 性 能 测试 需要 大 量 计算 和 1O 资源 , 所 以 搭建 性 能 测试 环境 很 可 能 比 为 应 用 准备 生 
产 环境 还 要 复杂 。 因 此 ,可 能 需要 在 项 目 启动 时 就 搭建 性 能 测试 环境 ， 并 确保 能 够 为 尽早 、 正 确 
地 搭建 准备 好 所 需 资源 。 

为 了 能 尽早 发 现 性 能 问题 ,应 该 记录 所 有 性 能 测试 结果 , 并 对 比 上 一 次 结果 , 评估 各 项 性 
指标 。 例 如 ， 如 果 性 能 测试 结果 与 上 一 次 的 偏差 超过 2%， 则 可 判定 本 次 性 能 测试 失败 。 
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10.2.6 在 测试 套件 中 集成 非 功 能 性 需求 测试 
除了 测试 代码 并 验证 它 符合 预期 且 能 在 类 生产 负载 下 正常 运行 , 还 需要 验证 系统 的 其 他 质量 
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属性 。 这 些 质 量 属性 通常 被 称 为 非 功 能 性 需求 ， 包 括 可 用 性 、 可 扩展 性 、 容 量 以 及 安全 性 等 。 


许多 非 功能 性 需求 是 通过 正确 配置 环境 实现 的 , 因此 必须 编写 相应 的 自动 化 测试 , 用 于 验证 
环境 搭建 和 配置 的 正确 性 。 例 如 , 应 该 保证 以 下 几 项 的 一 致 性 和 正确 性 ,这 是 很 多 非 功能 性 需求 
所 依赖 的 〈 例 如 安全 性 、 性 能 和 可 用 性 ): 


口 所 使 用 的 应 用 、 数 据 库 和 软件 库 等 ; 
口 编程 语言 的 解释 器 和 编译 器 等 ; 
口 操作 系统 ( 例如 启用 审核 日 志 记 录 等 ); 
口 所 有 依赖 项 。 


当 使 用 基础 设施 即 代码 的 配置 管理 工具 时 ( 例如 Puppet、Chef、Ansible 、SaltStack 或 Bosh )， 
可 以 用 测试 代码 时 所 用 的 框架 测试 环境 是 否 正确 配置 及 正常 运行 (例如 将 环境 测试 编写 成 
Cucumber 或 者 Gherkin 测试 )。 


此 外 , 与 在 部 署 流水 线 中 针对 应 用 进行 代码 分 析 一 样 ( 如 静态 代码 分 析 和 测试 覆盖 率 分 析 )， 
还 要 用 工具 (例如 Chef 的 Foodcritic 或 Puppet 的 puppet-lint ) 对 构建 环境 的 代码 进行 分 析 。 还 应 
该 把 所 有 安全 性 加 固 检查 作为 自动 化 测试 的 一 部 分 , 以 保证 所 有 相关 配置 都 是 正确 的 (例如 服务 
器 规格 )。 


在 任何 时 候 ， 自 动 化 测试 都 能 够 验证 代码 处 于 可 部 署 状态 。 务 必 建 立 安 灯 强 机制， 以 便 在 部 
署 流水 线 失败 时 ， 能 够 立刻 采取 一 切 必 要 措施 将 构建 版 本 恢复 到 绿色 状态 。 


































































































10.3 在 部 署 流水 线 失 败 时 拉 下 安 灯 强 
当 构 建 版 本 在 部 署 流水 线 中 处 于 绿色 状态 时 , 我 们 就 可 以 放心 地 将 代码 变更 部 署 到 生产 环境 中 。 


为 了 让 部 署 流水 线 始 终 保持 绿色 状态 , 务必 创建 虚拟 的 安 灯 绳 ， 它 类 似 于 丰田 生产 系统 中 的 
那个 物理 装置 。 一 旦 某 个 开发 人 员 提 交 的 代码 变更 导致 构建 或 自动 化 测试 失败 , 在 这 个 问题 被 解 
决 之 前 , 不 允许 提交 任何 新 的 变更 。 如 果 有 人 在 解决 问题 时 需要 帮助 , 他 们 能 获取 任何 所 需 资源 ， 
就 像 本 章 开头 描述 的 谷歌 的 案例 那样 。 

当 部 署 流水 线 失败 时 , 至 少 要 告知 整个 团队 。 所 有 人 要 么 都 去 一 同 解决 问题 , 要 么 回 深 代 码 ， 
甚至 可 以 把 版 本 控制 系统 配置 为 拒绝 后 续 的 代码 提交 ， 直 到 部 署 流水 线 的 第 一 阶段 ( 即 构建 和 单 
元 测试 ) 恢复 成 绿色 状态 。 如 果 问 题 源 于 自动 化 测试 产生 的 误 报 , 那么 应 该 重 写 或 删除 该 测试 。” 
队 的 所 有 成 员 都 应 该 有 权限 进行 回 滚 操作 ， 以 便 使 部 署 流水 线 恢 复 到 绿色 状态 。 


Google App Engine 的 前 工程 总 监 Randy Shoup 这 样 描述 将 部 署 流水 线 恢复 到 绿色 状态 的 重要 





















































GD 如 果 并 不 是 所 有 人 都 了 解 回 滚 代码 的 流程 ， 那 么 可 以 采取 结对 回 滚 的 对 策 ， 以 更 好 地 记录 回 滚 操 作 。 
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性 :“ 我 们 认为 团队 目标 高 于 个 人 目标 一 一 在 帮助 他 人 推进 工作 的 同时 ， 也 帮助 了 整个 团队 。 这 
包括 帮助 他 人 解决 构建 或 自动 化 测试 的 问题 ,甚至 进行 代码 审查 。 当 然 , 我们 也 知道 ,在 自己 需 
要 帮助 的 时 候 , 其 他 人 也 会 伸 出 援手 。 这 个 系统 并 不 受 大 量 正式 的 规定 或 制度 约束 一 一 每 个 人 都 
知道 工作 不 只 是 “编写 代码 '， 更 是 “运行 服务 '。 这 就 是 要 优先 考虑 所 有 质量 问题 的 原因 ， 特 别 
是 会 把 那些 与 可 靠 性 和 可 扩展 性 有 关 的 问题 放 在 最 高 级 别 , 将 其 视 为 具有 最 高 优先 级 的 “绊脚石 ” 
问题 。 从 系统 角度 看 ， 这 些 做 法 让 我 们 不 会 后 退 。 


当 部 署 流水 线 的 后 期 阶段 (例如 验收 测试 或 性 能 测试 ) 失败 时 ,不 应 停止 所 有 新 工作 ， 而 应 
让 一 部 分 开发 人 员 和 测试 人 员 随 时 待命 , 他 们 负责 在 问题 发 生 时 立即 加 以 解决 。 这些 开 发 人 员 和 
测试 人 员 还 应 在 部 署 流水 线 的 早期 阶段 执行 新 的 测试 ,用 来 捕获 这 些 问题 引入 的 回归 错误 。 例 如 ， 
I 果 在 验收 测试 中 发 现 一 个 缺陷 ,就 应 该 编写 一 个 单元 测试 来 捕获 这 个 问题 。 同 样 ， 如果 在 探索 
性 测试 中 发 现 缺 陷 ， 就 应 该 编写 对 应 的 单元 测试 或 验收 测试 。 


为 了 更 容易 发 现 失败 的 自动 化 测试 , 应 该 安装 非常 直观 的 指示 器 ,以 便 团 队 的 所 有 成 员 都 能 
看 到 。 很 多 团队 在 墙 上 安装 了 直观 的 灯光 装置 , 用 于 显示 当前 的 构建 状态 。 其 他 有 趣 的 形式 包括 
燃 岩 灯 、 红 绿灯 、 语 音 、 乐 曲 和 Klaxon 曾 钟 等 。 


从 某 个 角度 来 说 , 这 个 步骤 比 进 行 构建 和 测试 服务 器 更 具有 挑战 性 一 一 那些 是 纯粹 的 技术 活 
动 ， 而 这 个 步 又 需要 改变 人 的 行为 和 提供 激励 机 制 。 接 下 来 , 我 们 探讨 持续 集成 和 持续 交付 为 何 


为 何 拉 下 安 灯 强 


如 果 不 拉 下 安 灯 绳 ,也 不 立即 解决 部 署 流 水 线 的 问题 , 就 会 导致 应 用 和 环境 更 难 恢复 到 可 部 
署 状 态 。 想 想 以 下 情况 。 


口 有 人 提交 的 代码 造成 构建 或 自动 化 测试 失败 ， 但 没有 人 修复 。 

口 其 他 人 在 已 经 失败 的 构建 版 本 上 又 提交 了 一 份 代码 变更 。 这 当然 无 法 通过 自动 化 测试 ， 
但 没有 人 看 到 这 些 有 助 于 发 现 新 缺陷 的 测试 结果 ， 更 不 用 说 修复 了 。 

口 现 有 的 测试 都 不 能 可 靠 地 执行 ， 因 此 不 太 可 能 编写 新 的 测试 用 例 。( 为 何 较 这 个 劲 ? 连 当 
前 的 测试 都 不 能 通过 。 ) 


如 果 发 生 上 述 情况 , 那么 任何 环境 的 部 署 都 会 变 得 不 可 靠 。 这 就 和 不 用 自动 化 测试 或 与 使 用 
瀑布 式 方法 一 样 ， 大 多 数 问题 只 能 在 生产 环境 中 才 暴 露出 来 。 这 个 恶性 循环 导致 的 必然 结果 是 ， 
我 们 又 回 到 了 起 点 ， 耗 时 几 周 乃至 几 个 月 去 修复 bug 和 偿还 技术 债务 ， 整 个 团队 陷 和 危机; 为 了 
通过 所 有 测试 ， 迫 于 最 后 期 限 的 压力 ， 我 们 不 得 不 投机 取 巧 ， 技 术 债务 与 日 俱 增 。” 
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Q@ 这 就 是 常 说 的 瀑布 式 Scrum 反 模 式 ( water-Scrum-fall anti-pattern ): 表面 上 采用 敏捷 开发 实践 ， 但 实际 上 ， 所 有 
测试 和 缺陷 修复 仍然 在 项 目 快 结束 时 才 进 行 。 
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10.4 小 结 

在 本 章 中 ， 我 们 创建 了 一 组 全 面 的 自动 化 测试 ， 用 来 确保 构建 始终 处 于 绿色 的 可 部 署 状 态 。 
我 们 在 部 署 流水 线 中 组 织 好 了 测试 套件 和 测试 活动 , 还 建立 了 规范 , 要 求 无 论 谁 的 代码 变更 导致 
自动 化 测试 失败 ， 大 家 都 要 竭尽 全 力 地 将 系统 恢复 到 绿色 状态 。 

这 种 方式 为 持续 集成 英 定 了 基础 , 使 很 多 小 型 团队 能 够 独立 、 安全 地 开发 、 测 试 和 部 署 代码 ， 
从 而 向 客户 交付 价值 。 




















应 用 和 实践 持续 集成 








上 一 章 讨 论 了 自动 化 测试 实践 , 用 以 保障 开发 人 员 快 速 获得 工作 质量 的 反馈 。 当 开发 人 员 的 
数量 和 版 本 控制 系统 中 的 分 支 个 数 增加 时 ， 自 动 化 测试 会 变 得 更 加 重要 。 


分 支 在 版 本 控制 系统 中 的 主要 作用 是 , 让 开发 人 员 可 以 并 行 地 工作 在 软件 系统 的 各 个 组 成 部 
分 ， 同 时 避免 开发 人 员 提 交 的 代码 对 主干 (trunk， 有 时 候 也 被 称 为 master 或 mainline ) 的 稳定 性 
造成 影响 ,或 者 引入 错误 。™ 

然而 ， 开 发 人 员 在 自己 的 分 文 上 独自 工作 的 时 间 越 长 ， 就 越 难 将 变更 并 人 主干 。 习 
分 支 个 数 和 每 个 分 文 上 的 变更 数 同时 增加 时 ， 合 并 难度 会 又 增 。 
集成 问题 会 导致 大 量 的 返工 , 包括 不 得 不 通过 手动 合并 解决 变更 冲突 ,以 及 多 名 开发 人 员 共 
同 解决 导致 自动 化 测试 或 手动 测试 失败 的 合并 问题 。 因 为 在 传统 的 开发 模式 里 , 代码 集成 工作 通 
名 发 生 在 项 目的 末期 ， 所 以 在 集成 工作 消耗 过 多 时 间 时 ， 我 们 不 得 不 为 了 按时 发 布 而 偷工减料 。 

这 会 导致 男 一 个 恶性 循环 : 既然 合并 代码 如 此 痛苦 ,那么 大 家 索性 就 减少 合并 次 数 ， 而 这 会 
使 未 来 的 合并 工作 更 加 令 人 痛 苗 。 持 续集 成 间 在 通过 将 合并 融入 日 常 工作 来 解决 这 个 问题 。 
惠普 LaserJet 固件 部 门 的 工程 总 监 Gary Gruver 的 经 验 告诉 我 们 ， 持 续集 成 所 能 解决 的 问题 
的 广度 惊人 。 他 的 部 门 负 责 为 惠普 开发 所 有 扫描 仪 、 打 印 机 和 多 功能 设备 的 固件 。 

该 团队 有 400 名 开发 人 员 , 分 布 在 美国 、 巴 西 和 印度 。 尽 管 团 队 的 规模 很 大 , 但 是 工作 效率 
很 低 。 多 年 以 来 ， 该 团队 都 无 法 按照 业务 部 门 的 需求 快速 地 交付 新 特性 。 

Gary Gruver 描述 道 :“ 市 场 部 门 有 100 万 个 吸引 客户 的 想法 ， 而 我 们 只 能 告诉 他 们 ,“ 请 从 
这 些 想法 中 选 出 你 们 想 在 未 来 6 ~ 12 个 月 内 实现 的 两 个 想法 ”。” 

该 团队 一 年 只 能 发 布 两 个 固件 版 本 , 大 部 分 的 时 间 都 消耗 在 为 了 支持 新 产品 而 做 的 代码 移植 
工作 上 。Gary Gruver 估计 开发 新 特性 的 时 间 仅 占 5%， 其 余 时 间 则 全 都 花 在 偿还 技术 债务 的 工作 
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Q 版 本 控制 系统 中 的 分 支 功能 有 很 多 用 途 , 但 最 典型 的 是 用 于 根据 发 布 版 本 、 升 级 、 任 务 、 组 件 和 技术 平台 等 实现 
团队 成 员 之 间 的 工作 划分 。 
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上 ， 如 管理 多 个 代码 分 支 以 及 手动 测试 ， 举 例如 下 : 


口 20% 的 时 间 用 于 制订 详细 的 项 目 计划 (团队 的 生产 力 低 , 交付 时 间 长 ,这些 被 错误 地 归咎 
于 工作 量 评估 得 不 准 ， 所 以 团队 被 要 求 做 更 详细 的 评估 ); 

口 25% 的 时 间 用 于 移植 代码 ， 所 有 代码 的 维护 工作 都 在 不 同 的 分 支 上 进行 ; 

口 10% 的 时 间 用 于 集成 不 同 的 分 支 ; 

口 15% 的 时 间 用 于 执行 手动 测试 。 


Gary Gruver 和 团队 定 下 了 一 个 目标 ， 想 要 把 花 在 创新 和 新 特性 开发 上 的 时 间 增 加 10 倍 。 团 
队 希 望 通过 以 下 方式 实现 这 个 目标 : 


口 采用 持续 集成 和 基于 主干 的 开发 方式 ; 

口 在 自动 化 测试 上 投入 更 多 的 精力 ; 

口 开发 一 个 硬件 模拟 器 ， 用 于 在 虚拟 平台 上 执行 测试 ; 

D 在 开发 人 员 的 工作 站 上 重 现 失败 的 测试 ; 

口 采用 一 种 新 的 架构 ， 使 用 统一 的 构建 和 发 布 方式 ,支持 所 有 打印 机 产品 。 


在 此 之 前 ， 每 条 产品 线 都 拥有 自己 的 代码 分 支 ， 每 种 型 号 的 设备 都 有 一 个 相应 的 固件 版 本 ， 
功能 在 代码 编译 时 定义 。 新 架构 统一 了 代码 库 ， 任 何 一 个 国 件 版 本 都 可 以 文 持 LaserJet 设备 的 
所 有 型 号 ， 打 印 机 的 所 有 功能 通过 一 个 XML 配置 文件 来 设 定 。 


4 年 以 后 , 该 团队 基于 主干 开发 的 代码 库 可 以 支持 惠普 的 24 条 LaserJet 产品 线 。Gary Gruver 
承认 , 基于 主干 的 开发 方式 需要 工程 师 转 换 思 维 方式 。 工程 师 以 前 认为 基于 主干 的 开发 方式 不 可 
行 ， 可 是 一 旦 开始 这 样 做 ， 他 们 就 再 也 不 想 回 到 从 前 了 。 多 年 以 来 ， 有 一 些 工程 师 离 开 了 惠普 。 
有 人 仍然 会 打 电 话 告 诉 Gary Gruver 说 :“ 新 公司 在 开发 方面 很 落后 , 在 没有 持续 集成 提供 反馈 的 
情况 下 ， 很 难保 证 开发 效率 和 版 本 质量 。” 


然而 ， 基 于 主干 的 开发 方式 需要 创建 更 有 效 的 自动 化 测试 。Gary Gruver 说 :“ 如 果 没 有 自动 
化 测试 ， 持 续集 成 只 能 产生 一 大 堆 没 有 经 过 编译 而 且 不 能 正确 运行 的 垃圾 。” 在 刚 开始 时 ， 完 整 
地 执行 一 套 手动 测试 需要 6 周 的 时 间 。 


为 了 使 所 有 的 固件 版 本 都 能 实现 自动 化 测试 , 团队 在 打印 机 模拟 器 上 投入 了 大 量 精力 , 并 且 
用 6 周 的 时 间 搭 建 了 一 个 测试 服务 器 集群 。 在 之 后 的 几 年 中 ,6 个 机 架 上 的 服务 器 运行 着 2000 
多 个 打印 机 模拟 器 , 它们 负责 从 部 署 流水 线 加 载 固件 版 本 。 持 续集 成 系统 运行 着 全 套 的 自动 化 单 
元 测试 、 验 收 测试 和 集成 测试 ， 就 像 上 一 章 所 描述 的 那样 。 团 队 有 了 这 样 一 种 文化 : 当 开 发 人 员 
的 玻 包 导致 部 署 流水 线 失 败 时 , 所 有 工作 就 会 立刻 停止 , 从 而 保证 开发 人 员 能 迅速 地 把 系统 恢复 
到 绿色 状态 。 






































































































































g 编译 标志 ( #Gefine 和 #ifaef ) 用 于 启用 或 禁用 代码 的 执行 ， 如 复印 功能 和 支持 纸张 尺寸 等 。 
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自动 化 测试 能 够 快速 地 提供 反馈 ， 使 开发 人 员 可 以 迅速 地 确认 自己 提交 的 代码 能 够 正常 工 
作 。 单 元 测试 在 开发 人 员 的 工作 站 上 执行 ， 并 且 会 在 几 分 钟 内 完成 。 针 对 每 次 提交 ，3 个 级 别 的 
自动 化 测试 会 每 隔 2 ~ 4 小 时 就 执行 一 次 。 最 后 ， 还 会 每 24 小 时 执行 一 次 全 面 的 回归 测试 。 以 上 
工作 方式 的 成 果 如 下 : 


口 先 每 天 执行 1 次 构建 ， 最 终 实现 了 每 天 执行 10 ~ 15 次 构建 ; 

D 从 每 天 “总 构建 人 ”进行 大 约 20 次 代码 提交 ， 变 为 每 天 所 有 开发 人 员 进 行 超过 100 次 代 
码 提交 ; 

口 开发 人 员 每 天 更 改 或 添加 的 代码 行 数 达到 7.5 万 ~ 10 万 ; 

D 回归 测试 的 周期 从 6 周 缩短 为 1 天 。 


在 应 用 持续 集成 以 前 ， 这 种 生产 力 水 平 是 无 法 想象 的 。 仅 仅 是 创建 一 个 绿色 构建 版 本 ， 就 需 
要 好 几 名 高 手 共同 奋战 好 儿 天 。 持 续集 成 所 带 来 的 商业 利益 是 惊人 的 : 


口 开发 人 员 用 于 创新 和 新 特性 开发 的 时 间 从 5% 增 加 到 40%; 
口 总 开发 成 本 降低 了 约 40%; 

口 处 于 开发 状态 的 项 目 增 加 了 约 140%; 

口 每 个 项 目的 开发 成 本 降低 了 78%。 


Gary Gruver 的 经 验 表 明 ， 在 全 面 应 用 版 本 控制 以 后 ， 想 要 实现 价值 流 的 快速 流动 ， 最 关键 
的 一 个 实践 就 是 持续 集成 ， 它 使 大 量 开 发 团队 能 够 独立 地 开发 、 测 试 和 交付 价值 。 然 而 ， 持 续集 
成 仍然 是 颇具 争议 的 实践 。 本 章 接 下 来 将 描述 实现 持续 集成 所 需 的 各 种 实践 ,以 及 如 何 应 对 常见 
的 异议 。 
























































三 





11.1 小 批量 开发 与 大 批量 合 


如 前 几 章 所 说 , 每 当 提 交 到 版 本 控制 系统 的 代码 变更 导致 部 署 流水 线 失败 时 , 我 们 就 会 群 策 
群 力 地 解决 问题 , 力求 尽快 将 部 署 流 水 线 恢复 到 绿色 状态 。 然 而 ， 如 果 开 发 人 员 长 时 间 工 作 在 自 
己 的 分 支 (也 称 为 “特性 分 支 ”) 上 ， 只 是 偶尔 将 代码 合并 到 主干， 那么 他 们 的 每 一 次 合并 都 会 
为 主干 引入 大 批量 的 变更 ,这 会 造成 严重 的 问题 。 正 如 惠普 LaserJet 的 案例 所 述 ， 为 了 保持 代码 
的 可 发 布 状 态 ， 上 述 情况 必然 导致 大 规模 的 版 本 混乱 和 返工 。 
JeffAtwood 是 Stack Overflow 网 站 的 联合 创始 人 ， 也 是 博客 Coding Horror 的 作者 。 他 指出 ， 
尽管 分 支 策略 有 很 多 种 ， 但 是 可 以 分 为 以 下 两 类 。 
口 提高 个 人 生产 力 : 所 有 人 都 在 自己 的 分 支 上 工作 。 每 个 人 都 独立 地 工作 ， 并 且 不 能 干扰 
其 他 人 ; 然而 ， 代 码 合并 将 是 一 场 晋 梦 。 协 作 将 变 得 相当 困难 ， 每 个 人 都 不 得 不 谨 小 慎 
微 地 合并 代码 ， 即 便 是 完成 系统 里 最 小 的 部 分 也 是 如 此 。 
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口 提高 团队 生产 力 : 所 有 人 都 在 同一 个 区 域 里 工作 。 并 没有 分 支 ， 只 有 一 条 很 长 、 不 可 被 
中 断 的 主干 ; 也 没有 规则 ， 因 此 代码 的 提交 过 程 很 简单 。 但 是 ,任何 一 次 提交 都 有 可 能 
破坏 整个 项 目 ， 同 时 导致 项 目 中 断 。 


JeffAtwood 的 观点 完全 正确 。 更 准确 地 说 , 成 功 地 将 分 支 合并 到 主干 的 成 本 , 会 随 着 分 支 个 
数 的 增加 旦 指数 上 升 。 问题 不 仅 在 于 “合并 踊 梦 ” 带 来 的 返工 , 还 在 于 被 延迟 的 部 署 流水 线 反 馈 。 
例如 ,对 于 完整 的 软件 系统 而 言 ,性 能 测试 只 有 在 开发 后 期 才 执行 ， 而 它 本 应 该 在 整个 过 程 中 持 
续 地 执行 。 


此 外 , 如 果 通 过 增加 开发 人 员 的 数量 来 提高 生产 力 , 那么 代码 变更 相互 影响 的 可 能 性 就 会 随 
之 增加 ; 当 部 署 流 水 线 失 败 时 ， 受 影响 的 开发 人 员 也 会 更 多 。 


大 批量 合并 的 男 外 一 个 副作用 是 , 合并 难度 越 大 ,开发 人 员 就 越 不 可 能 ( 也 越 不 愿意 ) 改进 
和 重 构 代码 ， 因 为 重 构 很 可 能 导致 其 他 所 有 人 返工 。 在 这 种 情况 下 ， 人 们 就 更 不 愿意 去 修改 那些 
在 整个 代码 库 中 都 有 依赖 项 的 代码 。 不 幸 的 是 ， 这 样 的 代码 往往 价值 最 高 。 


Ward Cunningham 开发 了 世界 上 第 一 个 维基 系统 ， 也 创造 了 “技术 债务 ”一 词 。 他 在 描述 技 
术 债 务 时 说 ,如 果 不 能 主动 地 重 构 代码 库 , 它 就 会 慢 慢 地 变 得 难以 修改 和 维护 ,新 特性 的 增加 速 
度 也 会 因此 而 下 降 。 持 续集 成 和 基于 主干 的 开发 实践 ,其 主要 目的 就 是 解决 这 些 问 题 ， 从 而 在 提 
高 个 人 生产 力 的 基础 之 上 提高 团队 生产 力 。 


11.2 ”应 用 基于 主干 的 开发 实践 


解决 大 批量 合并 问题 的 对 策 是 , 应 用 持续 集成 和 基于 主干 的 开发 实践 , 让 每 个 开发 人 员 每 天 
都 至 少 向 主干 提交 一 次 代码 。 这 样 做 能 够 将 代码 提交 量 降低 为 开发 团队 每 日 的 工作 量 。 开发 人 员 
提交 得 越 频 繁 ， 每 次 的 提交 量 就 越 小 ， 他 们 离 理 想 的 单 件 流 状 态 也 就 越 近 。 


频繁 地 向 主干 提交 代码 , 意味 着 可 以 针对 整个 软件 系统 执行 所 有 的 自动 化 测试 , 并 且 在 应 用 
或 接口 的 某 个 部 分 出 现 问题 时 ， 及 时 收 到 告警 信息 。 由 于 合并 问题 能 被 及 时 发 现 , 因此 也 能 被 及 
时 解决 。 


我 们 甚至 可 以 对 部 署 流 水 线 进行 这 样 的 配置 :拒绝 接受 任何 使 系统 偏离 可 部 署 状 态 的 提交 
(例如 代码 变更 或 环境 变更 ),。 这 种 方式 被 称 为 门 控 提 交 ， 即 部 署 流水 线 要 确认 所 提交 的 变更 能 成 
功 合并 和 正常 构建 并且 在 合并 到 主干 之 前 就 已 经 通过 了 所 有 的 自动 化 测试 。 如 果 测 试 失败 ， 则 
开发 人 员 将 收 到 通知 ， 这 样 就 可 以 在 不 影响 价值 流 中 的 其 他 人 的 情况 下 自己 解决 问题 。 


每 日 提交 代码 ， 也 迫使 开发 人 员 进 一 步 分 解 工作 ， 同 时 保持 主干 处 于 可 发 布 状态 。 


版 本 控制 系统 为 团队 间 的 沟通 提供 了 一 套 完整 的 机 制 一 一 每 个 人 对 系统 都 有 了 更 好 的 理解 ， 
并 且 都 了 解 部 署 流水 线 的 状态 ,而 且 能 在 出 现 问题 时 互相 帮助 , 从 而 实现 更 高 的 质量 和 更 快 的 部 
署 速度 。 
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应 用 这 些 实践 后 , 我 们 再 来 修订 “完成 ”的 定义 ( 黑体 文字 为 新 增 内 容 ):“ 在 每 个 迭代 周 























明 








束 时 , 已 经 在 类 生产 环境 中 集成 和 测试 了 可 工作 和 可 交付 的 代码 ; 这 些 代码 通过 一 键 式 流程 在 


主干 上 创建 ， 并 已 通过 自动 化 测试 。 








遵循 上 述 定 义 的 原则 有 助 于 进一步 提高 代码 的 可 测试 性 和 可 部 署 性 。 通过 将 代码 保持 在 可 部 





署 状 态 ， 就 能 避免 在 项 目 后 期 才 进 行 单独 的 测试 和 bug 修复 。 


* 案例 研究 * 
Bazaarvoice 的 持续 集成 实践 〈2012 年 ) 


Ernest Mueller 曾经 帮助 National Instruments 实施 了 DevOps 转型 ， 之 后 在 2012 年 
还 帮助 Bazaarvoice 实施 了 对 开发 和 发 布 流程 的 转型 。Bazaarvoice 为 数 千 家 零售 商 (如 
百思买 、 耐 克 和 沃尔玛 ) 提供 “顾客 生成 内 容 ” 服 务 ， 例 如 针对 产品 的 评价 和 评分 等 。 


当年 ，Bazaarvoice 的 年 收益 为 1.2 亿美 元 ， 公 司 正 在 准备 IPO。 "其 收益 主要 依赖 
于 Bazaarvoice Conversations 这 个 应 用 。 这 个 单 体式 Java 应 用 有 近 500 万 行 代码 (有 些 
甚至 写 于 2006 年 )， 文 件数 多 达 15 000。 该 服务 运行 在 4 个 数据 中 心 和 多 个 云 服 务 商 提 
供 的 1200 台 服 务 器 上 。 


在 转换 到 敏捷 开发 流程 ， 并 把 和 迭代 周期 缩短 到 两 周 之 后 ， 他 们 渴望 在 当时 每 10 周 
发 布 一 次 的 基础 上 进一步 提高 发 布 频率 。 开 发 人 员 也 开始 逐步 解 烛 单 体式 应 用 ， 将 其 重 
构成 微服 务 。 

2012 年 1 月 ，Bazaarvoice 首次 尝试 每 两 周 发 布 一 次 。Ernest Mueller 发 现 ,“ 刚 开始 
时 并 不 顺利 。 情 况 非常 混乱 ,我 们 的 客户 报 了 44 个 生产 事件 。 管 理 层 的 意见 基本 上 就 
是 “ 别 再 这 么 干 了 ””。 





不 久 后 ，Ernest Mueller 开始 负责 发 布 流程 ， 他 的 目标 是 在 不 影响 客户 的 前 提 下 实 
现 每 两 周 发 布 一 次 的 计划 。 业 务 目标 包括 实现 更 快速 的 AB 测 试 (后 面 几 章 会 讲 到 )， 
以 及 加 快 新 特性 进入 生产 环境 的 速度 。Ernest Mueller 找 出 了 以 下 3 个 核心 问题 : 


口 缺乏 自动 化 测试 ， 这 寻 致 在 为 期 两 周 的 迭代 周期 中 ， 测 试 力度 不 够 ， 不 足以 预 
防 大 规模 故障 ; 

口 版 本 控制 系统 的 分 支 策略 允许 开发 人 员 直 接 把 代码 提交 到 生产 环境 中 ; 

口 运行 微服 务 的 团队 也 进行 独立 发 布 ， 这 经 常 造成 单 体 发 布 过 程 出 现 问题 ， 反 之 
亦 然 。 





Ernest Mueller 认为 ， 需 要 将 单 体式 应 用 的 部 署 流 程 稳定 下 来 ， 这 就 需要 应 用 持续 














GD Bazaarvoice 由 于 准备 IPO 而 推迟 了 产品 发 布 (IPO 很 成 功 )。 
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集成 。 在 随后 的 6 周 里 ， 开 发 人 员 停 止 了 特性 开发 ， 转 而 专注 于 编写 自动 化 测试 套件 ， 
包括 用 JUnit 执行 单元 测试 ， 用 Selenium 执行 回归 测试 ， 以 及 用 TeamCity 运行 部 署 流 
水 线 。Ernest Mueller 说 道 :“ 通 过 持续 地 执行 这 些 测 试 ， 我 们 认为 变更 代码 有 了 一 定 的 
安全 保障 。 最 重要 的 是 , 我 们 可 以 及 时 发 现 问题 ,而 不 是 在 部 署 到 生产 环境 之 后 ,， 才 发 
现 问题 。 


他 们 还 应 用 了 主干 /分 支 发 布 模型 一 一 每 两 周 新 建 一 个 专用 的 发 布 分 支 ， 在 非 紧 急 
情况 下 ， 该 分 支 不 允许 任何 代码 提交 ; 任何 变更 都 需要 经 过 一 个 审批 流程 ， 在 内 部 的 维 


基 系 统 中 按 变更 单 或 者 按 团 队 进 行 审批 。 该 分 支 在 完成 QA 流程 后 , 方 可 进入 生产 环境 。 
Bazaarvoice 在 可 预测 性 和 发 布 质量 方面 取得 了 显著 的 成 果 。 

口 2012 年 1 月 的 发 布 : 44 个 客户 事件 ( 刚 开始 进行 持续 集成 ) 

口 2012 年 3 月 6 日 的 发 布 : 延迟 5 天 ,5 个 客户 事件 


口 2012 年 3 月 22 日 的 发 布 : 准时 ，1 个 客户 事件 
口 2012 年 4 月 5 日 的 发 布 : 准时 ， 无 客户 事件 





Ernest Mueller 进一步 描述 了 他 们 的 成 功 之 道 。 


我 们 成 功 地 做 到 了 每 两 周 发 布 一 次 , 接着 是 每 周 发 布 一 次 , 这 几乎 不 需要 
工程 团队 做 任何 改变 。 由 于 发 布 时 间 非 常 有 规律 ,因此 我 们 只 需 在 日 历 上 把 发 
布 次 数 翻 倍 ， 然 后 根据 日 历 发布 即 可 。 我 们 几乎 实现 了 零 事 件 。 客 户 服 务 和 和 营 
销 团队 因此 做 出 了 重大 调整 ,他 们 不 得 不 改变 流程 ,例如 调整 每 周 向 客户 发 送 
电子 邮件 的 时 间 ， 以 保证 他 们 了 解 新 特性 。 我 们 随后 开始 向 下 一 个 目标 挺进 ， 
最 终 将 测试 时 间 从 3 个 多 小 时 缩短 为 不 到 1 个 小 时 , 并 把 环境 数量 从 4 个 减少 
为 3 个 (开发 环境 、 测 试 环境 和 生产 环境 ， 去 除了 预 生产 环境 )， 还 全 面 地 采 
用 持续 交付 模式 ， 实 现 了 快速 的 一 键 式 部 署 。 


11.3 ”小结 


基于 主干 的 开发 方式 可 能 是 本 书 中 最 具 争 议 的 实践 。 许多 工程 师 都 认为 它 行 不 通 , 他 们 更 喜 
欢 在 自己 的 分 支 上 工作 , 不 必 与 其 他 开发 人 员 协 作 。 然 而 ，Puppet Labs 的 《2015 年 DevOps 现状 
报告 》 表 明 ， 基 于 主干 的 开发 方式 能 带 来 更 高 的 生产 力 、 更 好 的 稳定 性 ， 甚 至 更 高 的 工作 满意 度 
和 更 低 的 职业 倦 傅 率 。 

虽然 在 开始 时 很 难说 服 开 发 人 员 , 但 是 一 旦 他 们 认识 到 显著 的 优势 ， 就 会 彻底 改变 ， 正如 惠 
普 LaserJet 和 Bazaarvoice 的 开发 人 员 一 样 。 持 续集 成 实践 为 下 一 步 实现 低 风 险 的 自动 化 部 署 流 
程 铺 平 了 道路 。 
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Chuck Rossi 是 Facebook 的 发 布 工程 总 监 ， 负 责 监 管 日 常 代 码 发 布 。 他 在 2012 年 这 样 描述 
Facebook 的 发 布 流程 :“ 大 约 在 下 午 1 点 , 我 就 切换 到 “ 运 维 模 式 ', 与 团队 一 起 将 当天 要 发 布 到 
Facebook.com 的 变更 都 准备 就 绪 。 这 些 工作 给 我 带 来 很 大 的 压力 。 在 很 大 程度 上 ,完成 这 些 工 作 
依赖 于 团队 的 判断 力 和 经 验 。 我 们 努力 保证 每 个 人 都 能 对 自己 的 变更 负责 , 并 积极 地 测试 和 支持 




















在 发 布 之 前 ， 所 有 参与 变更 的 开发 人 员 都 必须 登录 IRC 聊天 工具 ， 并 加 入 相关 的 聊天 频道 ; 
如 果 没 有 加 入 , 则 开发 人 员 的 部 署 包 会 被 自动 删除 。Chuck Rossi 继续 说 道 :“ 如 果 一 切 进展 顺利 ， 
测试 仪表 板 和 金 丝 省 发布 测试 " 则 会 显示 为 绿色 , 我 们 就 会 点 击 那个 红色 的 发 布 按钮 ，Facebook.com 
所 使 用 的 所 有 服务 器 都 会 立刻 开始 更 新 代码 。 在 20 分 钟 以 内 ， 新 的 代码 就 能 运行 在 成 千 上 万 台 
服务 器 上 ， 而 正在 使 用 Facebook 的 用 户 对 这 一 切 都 毫 无 察觉 。”? 


不 久之 后 ，Chuck Rossi 把 代码 发 布 频率 提高 了 一 倍 ， 即 每 天 两 次 。 他 解释 说 ， 第 二 次 发 布 
是 为 了 给 那些 不 在 美国 西海 岸 的 工程 师 一 个 机 会 ， 让 他 们 也 可 以 具备 “和 公司 的 其 他 工程 师 相 
同 的 快速 发 布 代码 和 交付 的 能 力 ”, 而 且 , 这 也 给 了 所 有 人 在 同一 天 中 第 二 次 发 布 和 交付 特性 的 
机 会 ( 见 图 12-1 )。 






























































极限 编程 方法 论 的 创造 者 Kent Beck 是 测试 驱动 开发 的 主要 支持 者 , 也 是 Facebook 的 技术 教 
练 。 他 在 自己 的 Facebook 主页 上 发 表 过 一 篇 文章 , 对 Facebook 的 代码 发 布 策略 做 了 进一步 评论 : 
“Chuck Rossi 发 现 ，Facebook 在 单 次 部 署 中 能 够 处 理 的 变更 数量 是 固定 的 。 如 果 要 做 更 多 变更 ， 
就 需要 更 多 部 署 。 因 此 在 过 去 的 5 年 里 , Facebook 的 部 署 频率 稳步 提高 ， PHP 代码 的 部 署 频率 从 
每 周一 次 提高 到 每 天 一 次 , 再 到 每 天 3 次 ; 移动 应 用 的 部 署 频率 从 每 6 周一 次 提高 到 每 4 周一 次 ， 
再 到 每 两 周一 次 。 这 些 改善 主要 是 在 发 布 工 程 团队 的 推动 下 实现 的 。” 























@ 金 丝 淮 发 布 测 试 是 指 将 软件 部 署 到 少量 的 生产 服务 器 上 ,用 真实 的 客户 流量 来 测试 ,以 保证 软件 不 会 出 现 严 重 问 题 。 
@) Facebook 的 前 端 代码 库 主要 是 用 PHP 编写 的 。 为 了 提高 网 站 的 性 能 ，Facebook 的 开发 人 员 在 2010 年 使 用 内 部 
开发 的 HipHop 编译 器 ， 把 PHP 代码 转换 成 了 C++ 代码 ,然后 再 进一步 编译 为 1.5GB 的 可 执行 文件 。 随 后 ， 开 发 
人 员 使 用 点 对 点 传输 工具 BitTorrent 把 这 个 可 执行 文件 复制 到 所 有 生产 服务 器 上 , 这 个 复制 操作 可 以 在 15 分 钟 内 
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每 周 部 署 代码 的 开发 人 员 的 数量 


活跃 的 开发 人 


2005 2006 2007 2008 2009 2010 2011 2012 


图 12-1 每 周 部 署 代码 的 Facebook 开发 人 员 的 数量 
(来 源 : Chuck Rossi 的 文章 “Ship early and ship twice as often”) 


Facebook 通过 采用 持续 集成 和 低 风险 的 代码 部 署 流程 ， 把 代码 部 署 变 成 了 所 有 人 的 日 常 工 
作 , 并 且 维持 了 开发 人 员 的 生产 力 。 这 要 求 代码 的 部 署 操 作 是 自动 化 、 可 重复 和 可 预测 的 。 在 前 
面 各 章 描述 的 实践 中 , 尽管 代码 和 环境 一 起 通过 了 测试 , 但 是 仍然 不 能 频繁 地 将 代码 部 署 到 生产 
环境 中 ， 因 为 部 署 操 作 依然 是 手动 完成 的 ， 这样 做 既 耗 时 且 令 人 痛苦 , 也 是 乏味 和 易 出 错 的 。 而 
且 ， 开发 团队 和 运 维 团队 通常 还 需要 进行 大 量 繁琐 上 且 不 可 靠 的 工作 交接 。 


因为 手动 部 署 令 开发 人 员 极 其 痛苦 ， 所 以 他 们 倾向 于 减少 部 署 次 数 , 这 将 导致 恶性 循环 。 由 
于 向 生产 环境 的 部 署 不 断 推迟 ， 因 此 等 待 部 署 的 代码 和 生产 环境 中 的 代码 之 间 的 差异 越 来 越 大 ， 
这 导致 批量 部 署 的 工作 量 增加 ， 由 于 变更 所 导致 的 意外 风险 以 及 修复 难度 也 会 随 之 增加 。 

本 章 旨 在 通过 减 小 生产 环境 部 署 的 阻力 ， 使 运 维 团队 或 开发 团队 能 频繁 、 轻 松 地 进行 部 署 。 
我 们 通过 扩展 部 署 流水 线 来 实现 这 一 点 。 


与 仅 将 代码 持续 集成 到 类 生产 环境 中 不 同 , 我 们 将 能 够 按 需 地 ( 即 一 键 式 发 布 ) 或 自动 化 地 
( 即 在 构建 和 测试 成 功 以 后 ， 直 接 进行 自动 化 部 署 ) 将 已 通过 自动 化 测试 和 验证 流程 的 任何 构建 
版 本 发 布 到 生产 环境 中 。 


由 于 本 章 将 描述 大 量 实践 , 因此 为 了 不 打 断 对 核心 概念 的 陈述 , 示例 和 扩展 内 容 将 以 脚注 的 
形式 呈现 。 














































































































12.1 自动 化 部 署 流 程 
想 要 像 Facebook 那样 取得 部 署 成 果 ， 需 要 一 种 自动 化 代码 部 署 机 制 。 如 果 现 有 的 部 署 流程 
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已 经 存在 多 年 ， 则 需要 将 流程 中 的 所 有 步骤 完整 地 记录 下 来 ， 例 如 通过 研讨 会 演练 价值 流 映 射 ， 
或 逐渐 将 步 又 记录 在 文档 中 ( 如 使 用 维基 系统 )。 


当 完 整 记录 目前 的 部 署 流程 以 后 , 下 一 步 的 目标 便 是 尽 可 能 地 简化 和 自动 化 手动 步骤 , 举例 
如 下 : 


口 将 代码 打包 成 便于 部 署 的 格式 ; 

口 创建 预 配置 的 虚拟 机 镜像 或 容器 ; 

口 将 中 间 件 的 部 署 和 配置 自动 化 ; 

口 将 安装 包 或 者 文件 复制 到 生产 服务 天 ; 

口 重启 服务 右 、 应 用 或 者 服务 ; 

口 基于 模板 生成 配置 文件 ; 

口 通过 执行 自动 化 冒 烟 测 试 ， 确 保 系 统 能 正常 运行 ， 并且 配置 正确 ; 
口 运行 各 种 测试 程序 ; 

口 将 数据 库 迁 移 工作 脚本 化 和 自动 化 。 


如 果 条 件 允 许 ， 可 以 重新 设计 流程 ， 并 去 除 一 些 步骤， 特别 是 那些 耗 时 的 步 又 。 不 但 要 缩短 
前 置 时 间 ， 而 且 还 要 尽 可 能 减少 交接 次 数 ， 从 而 降低 出 现 错误 和 流失 知识 的 可 能 性 。 


如 果 开 发 人 员 能 够 集中 精力 优化 部 署 流程 并 使 其 自动 化 ,那么 就 能 带 来 显著 的 改善 。 例 如 ， 
在 做 较 小 的 应 用 配置 变更 时 ， 不 再 需要 重新 部 署 应 用 或 者 重新 搭建 环境 。 


然而 , 开发 团队 只 有 和 运 维 团队 紧密 地 合作 , 才能 确保 共同 创建 的 工具 和 流程 能 在 下 游 正常 
使 用 。 路 远 运 维 团队 和 重复 造 轮子 都 是 不 可 行 的 。 


大 多 数 具 有 持续 集成 和 测试 功能 的 工具 , 也 有 扩展 部 署 流 水 线 的 能 力 。 通常 在 生产 验收 测试 
执行 完 之 后 ,这 些 工具 可 以 将 验证 过 的 构建 版 本 发 布 到 生产 环境 中 ( 这 样 的 工具 包括 Jenkins Build 
Pipeline 搬 件 \ThoughtWorks 的 GoCD 和 Snap CI、Microsoft Visual Studio Team Services, 以 及 Pivotal 


Concourse )。 
部 署 流水 线 有 如 下 需求 。 


口 用 相同 的 方式 处 理 所 有 环境 的 部 署 : 通过 对 所 有 环境 〈 例 如 开发 环境 、 测 试 环境 和 生产 
环境 ) 采用 相同 的 部 署 机 制 ， 可 以 提高 生产 环境 部 署 的 成 功率 ， 因 为 它 已 经 在 流水 线 中 
被 成 功 地 部 署 过 很 多 次 了 。 

口 对 部 署 执行 冒 烟 测试 : 在 部 署 过 程 中 ， 应 该 测试 依赖 的 所 有 系统 ( 例如 数据 库 、 消 息 总 
线 和 外 部 服务 ) 是 否 能 正常 访问 ， 并 通过 单 次 测试 看 看 系统 是 否 能 正常 工作 。 如 果 以 上 
任何 一 个 测试 失败 ， 那 么 部 署 就 是 失败 的 。 

口 维持 环境 的 一 致 性 : 上 述 步 又 创建 了 一 步 搭 建 环 境 的 流程 ， 使 得 开发 环境 、 测 试 环 境 和 
生产 环境 有 了 共同 的 搭建 机 制 。 必 须 持 续 保证 这 些 环 境 的 搭建 方式 是 一 致 的 。 
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当然 , 一 旦 部 署 流 程 出 现 问 题 ,， 就 要 拉 下 安 灯 绳 ， 并且 群策群力 地 解决 问题 ， 就 像 应 对 部 署 
流水 线 前 期 出 现 的 问题 一 样 。 





* 案例 研究 * 
CSG 国际 的 每 日 部 署 〈《2013 年 ) 


CSG 国际 是 美国 最 大 的 一 家 票据 打印 服务 公司 。 为 了 提高 软件 版 本 的 可 预测 性 和 可 
靠 性 ,首席 架构 师 和 开发 副 总 裁 ScottPrugh 将 发 布 频率 从 每 年 两 次 提高 到 了 每 年 4 次 ( 将 
部 署 周 期 从 28 周 缩短 为 14 周 )。 


虽然 开发 团队 每 天 都 通过 持续 集成 将 代码 部 署 到 测试 环境 中 , 但 是 向 生产 环境 的 发 
布 是 由 运 维 团队 完成 的 。Scott Prugh 说 道 :“ 我 们 的 开发 团队 可 以 每 天 ( 甚至 更 频繁 地 ) 
在 低 风 险 的 测试 环境 中 进行 “发 布 演 练 '"， 从 而 优化 开发 流程 和 工具 。 然 而 ， 运 维 团队 
却 只 有 极 少 的 演练 机 会 ， 每 年 只 有 两 次 。 更 糟糕 的 是 ， 他们 的 操作 对 象 是 高 风险 的 生产 
环境 ,其 各 方面 都 与 预 生产 环境 有 很 大 差异 一 一 在 开发 环境 里 ,并 没有 生产 环境 中 的 诸 
多 设备 和 约束 ， 如 安全 策略 、 防 火 墙 、 负 载 均衡 器 和 SAN 存储。 


为 了 解决 这 个 问题 ,他们 成 立 了 一 个 共享 运 维 团队 ( Shared Operations Team, SOT )， 
负责 管理 所 有 环境 ( 开发 环境 、 测 试 环 境 和 生产 环境 ) 并 执行 代码 部 署 工作 ， 包 括 每 天 
向 开发 环境 和 测试 环境 部 署 ， 以 及 每 14 周 向 生产 环境 部 署 和 发 布 。 因 为 SOT 团队 每 天 
都 要 执行 部 署 操作 , 所 以 如 果 留 着 某 个 问题 不 解决 ,那么 第 二 天 就 还 会 遇 到 同样 的 问题 。 
这 极 大 地 刺激 了 团队 ,促使 他 们 将 繁琐 和 容易 出 错 的 手动 操作 自动 化 ,以 防 同 样 的 问题 
再 次 出 现 。 由 于 在 向 生产 环境 发 布 之 前 ， 部 署 流程 已 经 执行 了 近 百 次 ， 因 此 绝 大 多 数 问 
题 早 就 被 发 现 和 解决 了 。 


以 前 只 有 运 维 团队 才 会 遇 到 的 问题 ， 其实 需 要 价值 流 中 的 所 有 成 员 参 与 解决 。 通 过 
每 日 部 署 ， 可 以 快速 知晓 哪些 做 法 可 行 ， 哪 些 不 可 行 。 


SOT 团队 还 致力 于 保持 所 有 环境 的 一 致 性 ,包括 安全 访问 权限 的 约束 和 负载 均衡 器 
的 一 致 性 。Scott Prugh 说 道 :“ 我 们 尽 全 力 保 持 非 生产 环境 与 生产 环境 的 一 致 性 ， 并 且 
绞 尽 脑汁 地 使 用 各 种 技术 模拟 生产 环境 。 将 应 用 在 早期 就 暴露 在 生产 级 别 的 环境 里 , 这 
改变 了 应 用 的 架构 设计 , 使 应 用 对 于 这 些 有 各 种 约束 条 件 的 环境 来 说 更 加 友好 。 这 个 模 
式 让 每 个 人 都 变 得 更 加 明智 了 。 


Scott Prugh 继续 说 道 : “我 们 遇 到 过 许多 需要 变更 数据 库 模 式 的 情况 : 要 么 将 变 
任务 交 给 DBA 团队 “自行 处 理 ， 要 么 用 很 小 ( 即 100MB ) 的 数据 集 执行 自动 化 测试 ， 
这 导致 了 一 些 生产 故障 。 在 以 前 ， 当 发 生生 产 故 障 后 , 各 个 团队 会 互相 推卸 责任 。 后 来 ， 
我 们 建立 了 一 个 开发 和 部 署 流程 ,通过 交 又 培训 使 开发 人 员 能 够 每 天 都 进行 数据 库 模 式 
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的 自动 化 变更 ， 这 样 就 不 必 把 变更 任务 交 给 DBA 团队 了 。 我 们 使 用 经 过 整理 的 客户 数 
据 集 ， 做 实际 的 压力 测试 ， 并 且 尽 量 每 天 都 进行 数据 库 的 迁移 和 同步 。 通 过 这 种 方式 ， 
在 处 理 真实 的 流量 之 前 ， 应 用 早 就 已 经 经 历 过 数 百 次 实战 演练 了 。” 


他 们 的 成 果 是 惊人 的 。 通 过 进行 每 日 部 署 和 将 生产 环境 发 布 频率 翻 倍 ， 生 产 事故 的 
发 生 次 数 降 低 了 91%， 平 均 恢 复 时 间 (MTTR ) 缩短 了 80%， 在 “完全 免 手 动 操 作 ” 的 
生产 环境 里 ， 完 成 服务 部 署 所 需要 的 时 间 从 14 天 缩短 到 1 天 ( 见 图 12-2 )。 


Scott Prugh 说 ， 部 署 工 作 变 得 如 此 常规 化 ， 以 至 于 运 维 团队 在 转型 的 第 一 天 快 结束 
时 ， 竟 然 玩 起 了 电子 游戏 。 对 于 开发 团队 和 运 维 团队 而 言 ， 部 署 工 作 变 得 更 顺利 ; 除 此 
之 外 ,在 50% 的 情况 下 ,客户 收获 价值 的 时 间 缩 短 了 一 半 。 这 说 明 ， 频繁 部 署 对 开发 人 
员 、 测 试 人 员 、 运 维 人 员 和 客户 都 大 有 神 益 。 











发 布 时 间 事故 数 。 ”影响 度 ”改进 程度 
丰 
ofwpg 2 fp 
全 \ 亡 兴 ts 0 (2%. 
与 每 次 发 布 相关 的 生产 事故 2015 古 5 月 41 97 79% (5x) 
2015 年 8 月 18 45 90% (10x) 
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13.1 (04-07) 14.2 (04-13) 15.2 (05-17) 15.3 (08-09) 


图 12-2 ”每 日 部 署 和 提高 发 布 频率 ， 既 降低 了 生产 事故 发 生 率 ， 也 缩短 了 平均 恢复 时 间 


(来 源 : Scott Prugh 和 Erica Morrison ) 











12.1.1 应 用 自动 化 的 自助 式 部 署 


耐克 公司 的 运 维 自动 化 总 监 Tim Tischler 曾经 描述 了 一 代 开 发 人 员 的 共同 经 验 , 他 说 :“ 作 为 
开发 人 员 , 我 在 职业 生涯 中 做 过 的 最 有 满足 感 的 事情 莫 过 于 专注 写 代 码 ,点击 部 署 按 钮 ， 通 过 监 
控 指 标 看 到 代码 能 在 生产 环境 中 正常 运行 ， 以 及 在 代码 出 错时 能 亲手 修复 。” 

















中 在 实践 中 ，CSG 国际 发 现 , 无 论 交 由 开发 团队 还 是 运 维 团队 管理 ，SOT 团队 都 能 取得 成 功 。 前 提 条 件 是 , 为 SOT 
团队 配备 合适 的 人 员 ， 并 且 团队 成 员 齐心 协力 地 朝 目 标 迈 进 。 
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开发 人 员 能 够 在 生产 环境 中 自行 部 署 代码 , 能 够 快速 看 到 客户 对 新 特性 感到 满意 , 能 够 快速 
修复 故障 而 不 必 等 运 维 人 员 提 交 故 障 单 ， 这 些 能 力 在 过 去 10 年 中 逐渐 减弱 。 部 分 原因 是 控制 和 


监管 的 需要 ， 这 也 许 是 由 安全 和 合 规 需求 造成 的 。 


常见 的 实践 是 运 维 人 员 执行 代码 部 署 , 这 种 职责 划分 也 是 被 广泛 接受 的 做 法 , 其 目的 是 降 
ee a ， 为 了 实现 DevOps 的 目标 ， 需 要 通过 运用 其 他 等 效 或 更 有 
效 的 机 制 来 控制 上 述 风险 ， 例 如 自动 化 测试 、 自 动 化 部 署 和 同行 变更 评审 。 


Puppet Labs 的 《2013 年 DevOps 现状 报告 》 调 查 了 4000 多 名 专业 技术 人 员 。 统计 结果 显示 ， 
在 代码 部 署 方 面 ， 开 发 人 员 和 运 维 人 员 的 变更 成 功率 并 没有 显著 差异 。 


换 名 话说， 如 果 开 发 团队 和 运 维 团队 的 目标 一 致 ， 并 且 部 署 结 果 的 责任 分 配 清晰 且 透 明 , 那 
么 由 谁 执 行 部 署 操作 ， 其 实 无 关 紧 要 。 事实 上 , 测试 人 员 或 项 目 经 理 等 其 他 角色 也 能 在 某 些 环境 
中 做 部 署 ， 从 而 快速 地 完成 工作 ， 例 如 在 测试 环境 或 UAT 环境 中 配置 和 部 署 一 套用 于 演示 产品 
特性 的 系统 。 


为 了 更 好 地 促进 工作 , 需要 一 个 可 以 由 开发 人 员 或 运 维 人 员 来 执行 的 代码 发 布 流程 , 并 且 在 
理想 情况 下 ， 应 该 不 需要 任何 手动 操作 或 工作 交接 。 这 个 流程 的 步骤 如 下 。 


口 构建 : 部 署 流水 线 必须 基于 版 本 控制 系统 构建 可 部 署 到 任何 环境 ( 包括 生产 环境 ) 的 软 
件 包 。 

口 测试 : 任何 人 都 应 该 能 够 在 他 们 的 工作 站 上 或 测试 系统 中 运行 任何 一 个 自动 化 测试 套件 。 
D 部 署 : 任何 人 都 应 该 能 够 将 这 些 软件 包 部 署 到 具有 访问 权限 的 任何 环境 ， 通 过 执行 (已 
提交 到 版 本 控制 系统 中 的 ) 脚本 来 完成 部 署 。 


以 上 实践 有 助 于 成 功 地 执行 部 署 ， 谁 来 执行 并 不 重要 。 

























































































12.1.2 ”在 部 署 流水 线 中 集成 代码 部 署 


如 果 代 码 部 署 过 程 是 自动 化 的 , 就 能 将 其 变 成 部 署 流水 线 的 一 部 分 。 因此， 自动 化 部 署 必 须 
具备 如 下 能 


D 保证 在 持续 集成 阶段 构建 的 软件 包 可 以 部 署 到 生产 环境 中 ; 

口 使 生产 环境 的 就 绪 情况 一 目 了 然 ; 

D 为 能 在 生产 环境 中 部 署 的 任何 代码 ， 建 立 一 键 式 和 自助 式 的 发 布 机 制 ; 

口 自动 记录 审计 和 合 规 管理 所 需 的 相关 内 容 ， 包 括 在 哪 台 机 器 上 运行 了 命令 ， 运 行 了 什么 
命令 ， 是 谁 授权 的 ， 以 及 结果 如 何 ; 

D 通过 冒 烟 测 试验 证 系统 正常 工作 ， 并 且 数 据 库 连 接 字符 串 等 配置 正确 ; 

口 为 开发 人 员 快 速 提供 反馈 ,使 他 们 能 够 尽快 了 解 部 署 结果 ( 例如 部 署 是 否 成 功 ， 应 用 是 
和 否 能 在 生产 环境 中 正常 运行 ， 等 等 )。 
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我 们 的 目标 是 实现 快速 部 署 一 一 不 用 等 待 数 小 时 之 后 才 知 道 部 署 是 否 成 功 , 也 不 用 在 修复 代 
码 上 耗费 数 小 时 。 运 用 Docker 等 容器 技术 ， 可 以 在 几 秒 钟 或 几 分 钟 内 完成 很 复杂 的 应 用 部 署 。 
Puppet Labs 的 《2014 年 DevOps 现状 报告 》 显 示 ， 高 绩效 组 织 的 部 署 交付 周期 以 分 钟 或 小 时 为 单 
位 ， 而 低 绩 效 组 织 则 以 月 为 单位 ( 见 图 12-3 )。 

前 置 时 间 平均 恢复 时 间 
































高 中 低 高 中 低 
<1 小 时 1 小 时 ~1 天 1 天 ~1 周 1 周 ~1 个 月 1~6 个 月 >6 个 月 <l 小 时 1 小 时 ~1 天 1 天 ~1 周 1 周 ~1 个 月 1~6 个 月 >6 个 月 














图 12-3 ”高 绩效 组 织 有 着 更 快 的 部 署 速度 和 更 短 的 平均 恢复 时 间 ( 男 见 彩 插 ) 
(来 源 : Puppet Labs 的 《2014 年 DevOps 现状 报告 》) 
通过 构建 上 述 能 力 ， 能 够 实现 一 键 式 代码 部 署 ， 通 过 部 署 流水 线 将 代码 和 环境 变更 一 起 安 
全 、 人 快速 地 发 布 到 生产 环境 中 。 





* 案例 研究 * 
Etsy 持续 部 署 案例 一 一 开发 人 员 自 助 式 部 署 (2014 年 ) 


与 Facebook 让 发 布 工程 师 来 管理 部 署 活动 的 方式 不 同 ， 在 Etsy， 任 何 想 要 执行 部 
署 的 人 都 能 直接 部 署 ， 包 括 开 发 人 员 、 运 维 人 员 和 信息 安全 人 员 。Etsy 的 部 署 流程 是 如 
此 安全 和 常规 ， 以 至 于 新 入 职 的 工程 师 在 第 一 天 就 会 执行 生产 环境 部 署 。 当 然 ，Etsy 的 
董事 会 成 员 也 可 以 执行 部 署 ， 甚 至 连 “小 狗 都 可 以 ”! 
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Etsy 的 测试 架构 师 Noah Sussman 是 这 样 描述 的 :“ 在 一 个 普通 的 工作 日 里 , 刚 到 上 
午 8 点 整 ， 就 有 大 约 15 个 人 和 小 狗 开 始 排 队 。 大 家 都 希望 在 下 班 之 前 ， 一 起 部 署 完 25 
个 变更 集 。 

想 要 部 署 代 码 的 工程 师 ， 首 先 要 进入 聊天 室 ， 并 把 各 自 的 工作 添加 到 部 署 队 列 中 。 
然后 ,他 们 会 观察 正在 进行 的 部 署 活动 ， 看 看 还 有 谁 在 队列 中 ,也 会 广播 自己 的 活动 进 
展 ,， 并 在 需要 帮助 的 时 候 ， 寻 求 其 他 工程 师 的 帮助 。 轮 到 某 个 工程 师 部 署 时 ， 他 会 收 到 
通知 。 





Etsy 的 目标 是 ， 尽量 使 用 最 少 的 步骤 ,使 生产 环境 部 署 简单 且 安 全 。 在 开发 人 员 提 
交代 码 之 前 ， 他 们 就 在 自己 的 工作 站 上 执行 了 4500 多 个 单元 测试 ， 而 这 些 测试 仅 需要 
不 到 一 分 钟 的 时 间 。 对 外 部 系统 ( 如 数据 库 ) 的 所 有 调用 都 已 经 打桩 了 。 


在 代码 变更 被 提交 至 主干 以 后 ， 持 续集 成 服务 器 上 会 立即 执行 7000 多 个 自动 化 测 
试用 例 。Noah Sussman 写 道 :“ 通 过 试 错 , 我 们 已 经 可 以 把 测试 时 间 控 制 在 大 约 11 分 钟 
以 内 。[ 当 某 个 变更 引发 问题 并 且 需 要 修复 时 , ] 这 给 再 一 次 执行 自动 化 测试 提供 了 机 会 ， 
使 修复 时 间 不 会 超过 规定 的 20 分 钟 太 多 。” 


Noah Sussman 说 ， 如 果 所 有 测试 都 按 顺 序 执行 ， 那 么 “执行 7000 多 个 测试 用 例 将 
需要 大 约 半 个 小 时 。 因 此 ， 我 们 把 测试 分 成 了 几 组 ,使 它们 并 行 地 运行 在 由 10 台 服 务 
器 组 成 的 Jenkins[ 持 续集 成 ] 服 务 器 集群 上 。 这 样 做 让 我 们 实现 了 11 分 钟 的 目标 ”。 


接 下 来 要 执行 的 是 骨 烟 测试 , 这 是 系统 级 测试 ,用 cURL 来 执行 PHPUnit 测试 用例 。 
在 冒 烟 测 试 之 后 是 功能 测试 ， 即 对 运行 中 的 服务 器 执行 由 界面 操作 触发 的 端 到 端 测试 。 
服务 器 既 可 以 在 QA 环境 中 ， 也 可 以 在 预 生产 环境 中 ( 即 图 12-4 中 的 Princess )。 实 际 
上 ， 它 是 从 生产 环境 中 撤回 的 生产 服务 器 ， 能 保证 测试 环境 和 生产 环境 完全 一 致 。 


Erik Kastner 写 道 : “[ 当 轮 到 某 个 工程 师 部 署 时 , ] 他 会 打开 部 署 控制 台 Deployinator， 
然后 点 击 Push to QA 按钮 。 进 入 预 生产 环境 Princess*…… 然后 ， 一 切 都 准备 就 绪 时 ， 就 
点 击 PRODIII 按 钮 ， 代 码 很 快 就 能 上 线 。IRC 聊天 频道 中 的 每 个 人 都 知道 是 谁 发 布 了 代 
码 ， 以 及 是 什么 代码 。 部 署 完成 之 后 ,会 返回 一 个 显示 部 署 前 后 差异 的 链接 。 即 使 是 不 
在 JRC 上 的 人 ， 也 会 收 到 电子 邮件 通知 ， 所 有 人 都 会 收 到 相同 的 信息 。。( 见 图 12-4 ) 

Etsy 在 2009 年 的 部 署 流程 给 公司 员工 带 来 了 压力 和 恺 惧 。 到 2011 年 ， 部 署 已 经 成 
了 常规 操作 ， 每 天 都 有 25~ 50 次 部 署 ， 这 使 得 工程 师 能 够 快速 地 发 布 代码 ， 并 向 客户 
交付 价值 。 
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ET 

7 \ 7 
人 7 A £0 pa 
VE/ /NN /VN 171 


Deploy to QA (Trunk) Log 
Message: 


| | 
| | 
Pushto QA — 


, [web] 2010-05-18 22:20:50 | PRODUCTION | sandrews | Production deploy: old 25134, 
new; 25145 diff 
. [web] 2010-05-18 22:18:00 | PRINCESS | sandrews | Princess Deploy: old: 25144, new: 
25145 dif 
* [web] 2010-05-18 22:17:22 | QA | sandrews | kyles bug fx old: , new: 25145 diff 
. [web] 2010-05-18 22:12:03 | QA | sandrews | pushing again -- banned user cache busting 
old: new: 25144 dif 
2010-05-18 22:08:39 | PRINCESS | sandrews | Princess Deploy: old:25134, new: 
2010-05-18 22:02:35 | QA | sandrews | 1//1//11111111/ old: 25134 , new: 25144 dif 
Save the Princess 一 . [web] 2010-05-18 20:56:50 | PRODUCTION | cmunns | Production deploy: old 25134, 
5 25134 diff 
2010-05-18 20:49:02 | PRODUCTION | cmunns| Production deploy: old 25134, 
5 25134 diff 
2010-05-18 20:44:43 | PRODUCTION |cmunns | Production deploy: old 25030， 


Princess is in the other castle 


5134 dif 
2010-05-18 20:41:17 | PRINCESS | ahashim | Princess Deploy: old: 25030, new: 


Deploy to Production 





2010-05-18 20:40:38 | QA | ahashim |Penut butter jelly time!!!!!: old: 25030, 
: 25134 


. [web] 2010-05-17 15:23:26 | PRODUCTION | sandrews | Production deploy: old 24951, 
PROD''' 一 525030 di 
. 2010-05-1715:08:05 | PRINCESS | sandrews | Production deploy: old 24951, new; 


25030 diff 











图 12-4 ”Etsy 的 部 署 控 制 台 Deployinator 
(来 源 ，Erik Kastner 的 文章 “Quantum of Deployment”" ) 


12.2 ”将 部 署 与 发 布 解 耦 
在 传统 的 软件 项 目 发 布 模式 下 ， 软 件 由 发 布 日 期 驱动 。 在 发 布 日 前 夜 , 已 完成 (或 者 尽 可 能 


接近 完成 ) 的 软件 被 部 署 到 生产 环境 中 。 第 二 天 早上 ,我 们 向 全 世界 宣布 新 版 本 上 线 ， 并 开始 接 
受 订 单 和 向 客户 提供 新 功能 。 





然而 , 事情 在 很 多 时 候 都 不 会 按 原 计划 进行 。 有 可 能 会 遇 到 从 未 测试 过 , 甚至 从 未 想 过 的 生 
产 负载 ,结果 导致 大 规模 的 服务 中 断 ， 使 客户 和 组 织 遭 受 影响 。 更 糟糕 的 是 ,恢复 服务 可 能 是 一 
个 令 人 痛苦 的 回 滚 过 程 , 或 者 是 有 着 同样 风险 的 前 向 修复 操作 ; 在 生产 环境 中 直接 进行 变更 操作 ， 
对 于 操作 者 来 说 可 能 是 非常 痛苦 的 经 历 。 在 一 切 都 恢复 正常 以 后 , 所 有 人 才能 松口 气 ， 然 后 庆幸 
不 用 经 常 向 生产 环境 部 署 和 发 布 代 码 。 








然而 ， 只 有 进行 更 频繁 的 部 署 , 才能 实现 流畅 和 快速 的 工作 流 。 为 了 实现 这 一 点 ， 需 要 将 生 
产 环境 部 署 和 特性 发 布 解 耦 。 在 实践 中 ,人们 通常 交替 使 用 “部 署 ” 和 “发 布 ”这 两 个 词 。 然 而 ， 
它们 其 实 是 不 同 的 动作 ， 并 且 有 着 截然 不 同 的 目标 。 








CD https://codeascraft.com/2010/05/20/quantum-of-deployment/ 
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D 部 署 是 指 在 特定 的 环境 中 安装 指定 版 本 的 软件 〈 例 如 ， 将 代码 部 署 到 集成 测试 环境 中 或 
生产 环境 中 )。 具体 地 说 ， 部 署 可 能 与 某 个 特性 的 发 布 相关 ， 也 可 能 无 关 。 

D 发 布 是 指 把 一 个 特性 (或 者 一 组 特性 ) 提供 给 所 有 客户 或 者 一 部 分 客户 ( 例如 ， 向 5% 的 客 
户 群 开放 特性 ) 代码 和 环境 架构 要 能 够 满足 这 种 要 求 : 特性 发 布 不 需要 变更 应 用 的 代码 。” 


换 句 话说， 如 果 我 们 混淆 了 部 署 和 发 布 , 就 很 难 界定 到 底 由 谁 来 对 结果 负责 。 解 看 这 两 个 活 
动 , 可 以 提升 开发 人 员 和 运 维 人 员 快 速 晶 频繁 部 署 的 能 力 , 同时 使 产品 负责 人 承担 成 功 发 布 的 责 
任 ( 即 确保 构建 和 发 布 特性 所 花 的 时 间 是 有 价值 的 )。 


本 书 所 描述 的 实践 确保 了 在 特性 的 开发 过 程 中 进行 快速 和 频繁 的 生产 部 署 ， 并 降低 由 于 部 署 失 
败 而 造成 的 风险 和 影响 。 但 发 布 风险 依然 存在 : 已 发 布 的 特性 是 否 能 满足 客户 需求 并 达到 业务 目标 ? 


如 果 部 署 周期 过 长 ,就 会 限制 向 市 场 频 繁 地 发 布 新 特性 的 能 力 。 然 而 , 假如 能 够 做 到 按 需 部 
署 ,那么 何 时 向 客户 发 布 新 特性 ， 就 成 了 业务 和 市 场 决策 ， 而 不 再 是 技术 决策 。 通 常 使 用 的 发 布 
模式 有 以 下 两 种 。 


口 基于 环境 的 发 布 模式 : 在 两 个 或 更 多 的 环境 中 部 署 系统 ， 但 实际 上 只 有 一 个 环境 处 理 客 
户 流量 〈 例 如， 通过 配置 负载 均衡 需 切 换 流 量 ) 将 新 的 代码 部 署 到 非 生产 环境 中 ， 然 后 
再 把 生产 流量 切换 到 这 个 环境 。 这 种 模式 非常 强大 ， 因 为 一 般 只 需要 对 应 用 做 很 少 的 改 
变 ， 或 者 几乎 不 用 改变 。 这 种 模式 包括 蓝 绿 部 署 、 金 丝 省 发布 和 集群 免疫 系统 。 我 们 随 
后 将 讨论 这 些 模 式 。 

口 基于 应 用 的 发 布 模式 : 对 应 用 进行 修改 ， 从 而 通过 细微 的 配置 变更 ， 选 择 性 地 发 布 或 开 
放 应 用 特性 。 例 如 ， 可 以 通过 特性 开关 逐渐 地 开放 新 特性 一 一 先 开 放 给 开发 团队 ， 再 开 
放 给 所 有 内 部 员工 ， 然 后 开放 给 1% 的 客户 ; 或 者 在 确认 特性 完全 符合 设计 后 ， 直 接 发 布 
给 全 体 客 户 。 这 就 是 所 谓 的 黑 启 动 技术 一 一 在 生产 环境 里 将 所 有 特性 都 部 署 完 毕 ， 并 在 
发 布 前 用 生产 环境 的 流量 做 测试 。 例 如 ， 在 发 布 前 的 几 周 里 ， 用 生产 环境 的 流量 来 测试 
新 特性 ， 以 便 在 正式 发 布 之 前 发 现 和 解决 所 有 问题 。 
































































































































12.2.1 基于 环境 的 发 布 模式 

解 耦 部 署 和 发 布 将 极 大 地 改变 我 们 的 工作 方式 。 我 们 不 再 需要 为 了 降低 对 客户 可 能 造成 的 负 
影响 而 在 三 更 半夜 或 周末 做 部 署 。 相反 ,我们 可 以 在 正常 的 工作 时 段 里 进行 部 署 。 运 维 人 员 终 
于 能 像 其 他 人 一 样 正常 下 班 了 。 

本 小 节 重 点 介绍 基于 环境 的 发 布 模式 , 这 种 发 布 模式 不 需要 更 改 应 用 的 代码 。 我 们 使 用 多 套 
环境 来 部 署 , 但 实际 上 只 有 一 套 环境 处 理 客户 流量 。 这 种 方式 可 以 显著 地 降低 生产 环境 发 布 的 风 



































Q 可 以 用 美军 的 “沙漠 盾牌 行动 ”做 一 个 形象 的 比喻 。 从 1990 年 8 月 7 日 开始 , 美军 在 4 个 多 月 内 将 成 千 上 万 的 人 
员 和 物资 安全 地 部 署 到 了 海湾 地 区 。 
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险 ， 并 缩短 部 署 时 间 。 
1. 蓝 绿 部 署 模式 


蓝 绿 部 署 是 3 种 模式 中 最 简单 的 一 种 。 在 这 种 模式 下 ,我 们 有 两 个 生产 环境 : 蓝 环 境 和 绿 环 
境 。 在 任 一 时 刻 ， 只 有 其 中 的 一 个 环境 处 理 客户 流量 。 在 图 12-5 中 ， 处 理 客户 流量 的 是 绿 环境 。 

















图 12-5” 蓝 绿 部 署 模式 
(来 源 :《 持 续 交 付 : 发布 可 靠 软 件 的 系统 方法 》) 


在 发 布 新 版 本 的 服务 时 ， 先 把 它 部 署 到 非 在 线 环境 ,以 便 在 不 影响 用 户 体验 的 情况 下 执行 测 
试 。 在 确信 一 切 都 正常 以 后 ,再 把 客户 流量 切换 到 蓝 环 境 ， 用 这 种 方式 来 交付 新 版 本 。 之 后 ， 蓝 
环境 就 变 成 了 生产 环境 ， 绿 环境 则 变 为 预 生产 环境 。 通 过 把 客户 流量 再 重 定向 回 绿 环境 ,还 可 以 
实现 回 滨 。” 


蓝 绿 部 署 模式 比较 简单 ， 也 非常 易于 在 已 有 的 系统 中 实现 。 它 有 很 多 好 处 , 例如 能 使 团队 在 
正常 的 工作 时 段 内 执行 部 署 工 作 , 并 在 非 高 峰 时 段 里 轻松 地 实施 版 本 切换 ( 如 变更 路 由 配置 或 符 
号 链接 )。 仅 这 些 就 能 使 部 署 团队 的 工作 境遇 得 到 巨大 的 改善 。 


2. 处 理 数据 库 变更 


当 应 用 的 两 个 版 本 依赖 同一 个 数据 库 时 ,就 会 出 现 问题 如 果 部 署 操作 需要 更 改 数据 库 模 式 ， 
或 者 添加 、 修 改 或 删除 表 或 列 ,那么 数据 库 将 无 法 同时 支持 应 用 的 两 个 版 本 。 一 般 通过 下 面 两 种 
方法 来 解决 这 个 问题 。 


口 创建 两 个 数据 库 〈 即 蓝 数据 库 和 绿 数 据 库 ): 应 用 的 每 个 版 本 一 一 蓝 色 ( 旧版 本 ) 和 绿色 
(新 版 本 ) 一 一 都 有 自己 的 数据 库 。 在 发 布 期 间 ， 将 蓝 数据 库 设 置 为 只 读 模 式 ， 然 后 执行 
备份 ， 再 恢复 到 绿 数据 库 ， 最 后 将 流量 切换 到 绿 环境 。 这 种 模式 的 问题 是 ， 如 果 需 要 回 
滚 到 蓝 色 版 本 ， 就 必须 先 手 动 地 把 事务 数据 从 绿 数据 库 迁 移 回 蓝 数据 库 ， 和 否则 可 能 丢失 
这 些 数据 。 





































































































@ 可 以 使 用 各 种 技术 来 实现 蓝 绿 部 署 模式 , 包括 配置 多 个 Apache 或 NGINX Web 服务 器 , 让 它们 监听 不 同 的 物理 或 
虚拟 网 卡 ; 在 Windows IIS 服务 器 上 ， 将 多 个 虚拟 根 目录 绑 定 到 不 同 的 网 络 端口 上 ;使 系统 的 每 个 版 本 使 用 不 同 
的 目录 , 并 用 符号 链接 的 方法 来 设置 哪 一 个 是 在 线 的 (例如 Ruby on Rails 的 Capistrano ); 同时 运行 服务 或 中 间 件 
的 多 个 版 本 ， 使 每 个 实例 监听 不 同 的 网 络 端口 ; 使 用 两 个 数据 中 心 ,在 二 者 之 间 切 换 流量 ， 而 不 是 仅仅 将 它们 当 
作 热 备 和 温 备 的 灾 备 中 心 使 用 ( 通过 轮换 使 用 两 个 环境 ， 也 能 始终 确保 灾难 恢复 流程 按照 期 望 工作 ) 此 外 ,还 
可 以 使 用 公有 云 里 不 同 的 可 用 区 。 
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D 将 数据 库 变更 与 应 用 变更 解 灶 ; 与 支持 两 个 版 本 的 数据 库 不 同 ， 通 过 执行 以 下 两 项 操作 ， 
将 数据 库 的 变更 发 布 和 应 用 的 变更 发 布 解 柱 ， 首 先 ， 只 对 数据 库 进行 增 量 式 变更 ， 不 更 
改 已 有 的 数据 库 对 象 ， 其次， 应 用 好 辑 对 生产 环境 里 的 数据 库 版 本 不 做 假设 。 这 与 我 
们 对 数据 库 一 贯 的 思维 方式 有 很 大 差异 ， 这 样 做 就 避免 了 产生 重复 数据 。IMVU 等 公司 
在 2009 年 前 后 采用 了 以 上 流程, 每 天 能 进行 50 次 部 署 , 其 中 的 一 些 是 需要 变更 数据 库 的 
操作 。? 


















































* 案例 研究 * 
Dixons 对 POS 系统 进行 的 蓝 绿 部 署 “2008 年 ) 


Dan North 和 David Farley 曾经 共同 在 英国 大 型 零售 商 Dixons 的 一 个 项 目 里 工作 。 
该 零售 商 拥有 数 千 个 POS 系统 ， 这 些 系统 分 布 在 各 个 品牌 旗下 的 数 百 家 零售 商店 中 。 


尽管 蓝 绿 部 署 一 般 用 于 在 线 Web 服务 ， 但 是 Dan North 和 David Farley 用 这 种 模式 
极 大 地 降低 了 POS 系统 升级 的 风险 ， 同 时 缩短 了 版 本 切换 需要 的 时 间 。 


通常 ， 升 级 POS 系统 是 庞大 的 瀑布 式 项 目 : POS 客户 端 和 中 央 服 务 器 将 会 同步 升 
级 ， 这 需要 很 长 的 停机 时 间 〈 一般 是 整个 周末 )， 而 且 将 新 版 的 POS 客户 端 软件 推送 给 
所 有 零售 商店 ， 需 要 大 量 的 网 络 带 宽 。 一 旦 升级 工作 脱离 了 原 定 的 计划 ， 就 会 对 商店 的 
销售 业务 造成 巨大 影响 。 


Dixons 并 没有 足够 的 网 络 带宽 条 件 支 持 所 有 的 POS 系统 同时 升级 ， 因 此 传统 方式 
行 不 通 。 为 了 解决 这 个 问题 ， 他 们 采用 了 蓝 绿 部 署 策略 ， 并 创建 了 两 个 版 本 的 中 央 生 产 
服务 器 ， 使 它们 能 够 同时 支持 旧版 本 和 新 版 本 的 POS 客户 端 。 


在 完成 这 些 工作 之 后 ， 他 们 在 计划 升级 POS 系统 的 前 几 周 里 ， 通 过 缓慢 的 网 络 链 
路 开始 向 零售 商店 推送 新 版 本 POS 客户 端 软件 的 安装 程序 , 同时 将 新 版 本 对 应 的 后 台 服 
务 器 端 软件 也 部 团 到 了 系统 中 ,并 配置 为 非 活动 状态 。 与 此 同时 , 旧版 本 保持 正常 运行 。 
当 所 有 的 POS 客户 端 都 下 载 完 升 级 包 以 后 (升级 版 的 客户 端 和 服务 器 端 已 成 功 通 
过 测试 ， 并 且 新 版 本 已 经 部 署 到 所 有 门店 )， 由 门店 经 理 来 决定 什么 时 间 发 布 新 版 本 。 
根据 门店 各 自 的 业务 需求 ， 那 些 希 望 立 即使 用 新 特性 的 门店 经 理 可 以 选择 立即 升 


级 ， 其 他 门店 经 理 则 可 以 选择 稍 后 再 升级 。 对 于 门店 经 理 来 说 ， 这 种 方式 明显 优 于 IT 
部 门 替 他 们 选择 升级 时 间 。 














Qa 这 个 模式 也 经 常 被 称 为 “扩展 与 收缩 模式 ”。Timothy Fitz 描述 道 : “我 们 不 去 改变 数据 库 对 象 ， 如 已 有 的 列 或 表 。 
相反 ， 我 们 先 通过 添加 新 对 象 使 数据 库 扩展 ， 然 后 通过 删除 旧 对 象 使 数据 库 收 缩 。” 此 外 ， 有 越 来 越 多 的 技术 支 
持 数 据 库 的 虚拟 化 、 版 本 控制 、 打 标签 和 回 深 , 例如 Redgate、Delphix、DBMaestro 和 Datical; DBDeploy 等 开源 | 
[C 具 能 使 数据 库 变 更 操作 更 安全 、 更 快速 。 
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蓝 绿 部 署 的 成 效 显 著 :; 发 布 过 程 明显 变 得 更 加 顺畅 和 迅速 ,门店 经 理 的 满意 度 也 提 


高 了 ,而 且 门 店 销售 业务 中 断 的 情况 也 明显 改善 。 另 外 ， 这 个 案例 是 对 胖 


客户 端 PC 应 


用 执行 蓝 绿 部 署 。 它 证 明 ，DevOps 模式 可 以 普遍 地 应 用 于 不 同类 型 的 技术 。 虽 然 应 用 


方式 往往 出 乎 人 们 的 意料 ， 但 是 都 能 取得 显著 的 成 果 。 


3. 金 丝 八 发 布 模式 和 集群 免疫 系统 发 布 模式 


蓝 绿 部 署 模 式 实 现 起 来 比较 简单 ， 而 且 可 以 显著 地 提高 软件 发 布 的 安全 性 
能 通过 自动 化 进一步 提高 安全 性 和 缩短 部 署 时 间 ， 但 同时 可 能 引入 复杂 性 。 


























o 它 有 一 些 变 体 » 


在 确定 代码 能 够 正常 运行 以 后 , 金 丝 汰 发 布 模式 将 发 布 过 程 自 动 化 , 并 逐步 推广 到 更 大 、 更 














关键 的 环境 中 。 











金 丝 八 发 布 这 个 术语 来 自 于 煤矿 工人 把 笼 养 的 金 丝 淮 带 入 矿井 的 传统 ,矿工 通过 金 丝 淮 来 了 
解 矿井 中 一 氧化 碳 的 浓度 。 如 果 一 氧化 碳 的 浓度 过 高 , 金 丝 余 就 会 中 毒 ， 从 而 使 矿工 知道 应 该 立 





刻 撤 离 。 


在 金 丝 逢 发布 模式 下 ， 我 们 会 监控 软件 在 每 个 环境 中 的 运行 情况 。 一 旦 出 
否则 就 在 下 一 个 环境 中 进行 部 署 。" 


图 12-6 显示 了 Facebook 为 了 采用 这 种 发 布 模式 而 创建 的 运行 环境 组 。 
口 A1 组 : 仪 向 内 部 员工 提供 服务 的 生产 环境 服务 器 。 


























( 自动 化 部 署 或 手动 部 署 均 可 )。 























现 问 题 ， 就 回 滚 ; 


口 A2 组: 仅 向 一 小 部 分 客户 提供 服务 的 生产 环境 服务 需 ， 在 软件 达到 某 些 验收 标准 后 部 署 

















口 A3 组: 其 余 的 生产 环境 服务 器 ， 软 件 在 A2 组 中 达到 某 些 验收 标准 后 再 


部 署 。 




















向 用 户 的 生产 系统 的 性 能 超出 预定 范围 时 ( 如 新 用 户 的 转化 率 低 于 15% ~ 20% 





集群 免疫 系统 扩展 了 金 丝 誉 发 布 模式 , 将 生产 环境 的 监控 系统 和 发 布 流 程 联 系 起 来 , 并 在 面 


)， 自 动 回 滚 代码 。 


这 种 保护 措施 有 两 个 明显 优势 : 首先 , 避免 了 通过 自动 化 测试 难以 发 现 的 缺陷 , 例如 使 某 些 
关键 的 页 面 元 素 不 可 见 的 页 面 变 更 ( 如 CSS 代码 变更 ); 其 次 , 减少 了 排查 和 解决 变更 造成 的 性 











能 下 降 问 题 所 需 的 时 间 。” 

















J 请 注意 , 金 丝 汰 发 布 模式 要 求 在 生产 环境 中 同时 运行 软件 的 多 个 版 本 。 但 是 , 由 于 每 在 生产 环境 中 增加 一 个 版 本 ， 
就 会 增加 额外 的 复杂 性 ， 因 此 应 当 使 版 本 数量 最 小 化 。 要 做 到 这 一 点 ， 可 能 会 用 到 上 文 描述 的 扩展 与 收缩 模式 。 
@ Eric Ries 在 IMVU 工作 期 间 首次 描述 了 集群 免疫 系统 。Etsy 在 其 Feature API 库 中 提供 了 这 个 功能 ， 它 也 被 Netflix 采 


















































用 。 
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路 由 器 /负载 
均衡 器 


小 部 分 用 户 大 部 分 用 户 




















新 版 本 发 布 包 



























































图 12-6 人 金 丝 稚 发 布 模式 
(来 源 :《 持 续 交 付 : 发 布 可 靠 软件 的 系统 方法 》) 





12.2.2 ”基于 应 用 的 发 布 模式 更 安全 

上 一 小 节 介 绍 了 基于 环境 的 发 布 模式 。 它 的 特点 是 ， 通 过 使 用 多 个 环境 并 在 其 间 切 换 流量 ， 
实现 部 署 与 发 布 的 解 厢 。 这 是 完全 能 在 基础 设施 层面 上 实现 的 。 

本 小 节 将 介绍 基于 应 用 的 发 布 模式 , 通过 代码 来 更 灵活 、 更 安全 地 向 客户 发 布 新 特性 (通常 


是 逐一 发 布 特性 )。 因 为 基于 应 用 的 发 布 模式 是 在 应 用 的 代码 里 实现 的 ， 所 以 需要 开发 团队 的 
参与 。 


























1. 实现 特性 开关 


基于 应 用 的 发 布 模式 主要 是 通过 特性 开关 来 实现 的 。 特 性 开关 机 制 使 我 们 能 在 不 进行 生产 环 
境 代码 部 署 的 情况 下 ,选择 性 地 启用 和 禁用 特性 。 通 过 特性 开关 ,可 以 将 应 用 的 特性 向 某 些 特定 
用 户 (例如 内 部 员工 和 某 些 客 户 群 ) 开放 。 


特性 开关 的 实现 机 制 通常 是 用 条 件 语 句 封装 应 用 逻辑 或 用 户 界 面 元 素 , 并 根据 保存 在 某 处 的 
配置 信息 启用 或 禁用 某 个 特性 。 可 以 使 用 简单 的 应 用 配置 文件 (例如 JSON 或 XML 格式 的 配 
置 文件 ) 存储 配置 信息 ， 也 可 以 通过 服务 目录 来 配置 ， 甚 至 可 以 专门 设计 用 于 管理 特性 开关 的 
Web 服务 。?” 






























































GD Facebook 的 Gatekeeper 就 是 这 样 的 服务 。 它 是 Facebook 开发 的 内 部 服务 ， 能 基于 用 户 的 位 置 、 浏 览 器 类 型 和 用 
户 资料 数据 〈 如 年 龄 和 性 别 ) 等 信息 ,动态 地 选择 哪些 特性 对 用 户 可 见 。 例 如 ， 可 以 把 某 个 特性 配置 成 只 能 被 内 



















































































部 员工 或 10% 的 用 户 使 用 ， 或 者 只 有 年 龄 在 25 ~ 35 岁 的 用 户 可 以 使 用 。 其 他 例子 包括 Etsy 的 Feature API 库 和 | 


Netflix 的 Archaius 库 。 
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特性 开关 还 具有 如 下 优势 。 


口 轻松 地 回 滚 : 只 需 更 改 特性 开关 的 设置 ， 就 可 以 在 生产 环境 中 ， 人 快速 安全 地 禁用 出 了 问 
题 或 造成 服务 中 断 的 特性 。 在 非 频繁 部 署 的 情况 下 ， 它 的 价值 更 大 一 一 关 掉 茶 一 个 特性 
通常 要 比 回 滚 整个 版 本 容易 得 多 。 

口 缓解 性 能 压力 : 当 服务 遭遇 极 高 的 负载 时 ， 通 常 需要 扩容 系统 ; 更 糟糕 的 是 ， 可 能 导致 
生产 环境 中 的 服务 中 断 。 不 过 ， 可 以 使 用 特性 开关 来 缓解 系统 的 性 能 压力 。 换 句 话说， 
可 以 通过 减少 可 用 的 特性 ,来 支持 更 多 的 用 户 〈 例 如 ， 减 少 使 用 某 特 性 的 客户 数量 ， 禁 
用 推荐 等 CPU 密集 型 特性 ， 等 等 )。 

口 采用 面向 服务 架构 提高 恢复 能 力 : 即便 某 个 特性 依赖 于 还 没有 上 线 的 服务 ， 仍 然 可 以 将 
这 个 特性 部 署 到 生产 环境 中 ， 然 后 用 特性 开关 把 它 先 隐藏 起 来 。 当 它 所 依赖 的 服务 上 线 
后 ， 就 可 以 启用 这 个 特性 。 同 样 ， 当 所 依赖 的 服务 中 断 时 ， 也 可 以 关闭 该 特性 ， 这 样 做 
不 但 可 以 和 下 游 的 故障 服务 隔离 ， 同 时 还 可 以 保持 应 用 的 其 余部 分 正常 运行 。 


为 了 保证 能 发 现 所 有 特性 的 缺陷 ， 应 该 在 打开 所 有 特性 开关 的 情况 下 执行 自动 化 验收 测试 。 
( 还 应 该 测试 特性 开关 功能 本 身 是 否 正常 ! ) 


特性 开关 将 代码 部 署 与 特性 发 布 解 耦 。 在 本 书后 面 的 内 容 中 , 我 们 将 使 用 特性 开关 实现 假设 
驱动 开发 和 A/B 测试 ， 从 而 进一步 提高 实现 业务 目标 的 能 力 。 


2. 实现 黑 启 动 


特性 开关 实现 的 效果 是 , 将 特性 部 署 到 生产 环境 中 , 但 暂时 使 其 不 可 用 。 它 使 黑 启 动 技术 成 
为 可 能 一 一 先 把 所 有 特性 都 部 署 到 生产 环境 中 ,然后 对 客户 不 可 见 的 特性 执行 测试 。 对 于 大 规模 
或 高 风险 的 变更 来 说 , 黑 启动 过 程 往往 持续 数 周 ， 从 而 保证 在 正式 发 布 之 前 使 用 类 生产 负载 安全 
地 进行 测试 。 


假设 我 们 使 用 黑 启动 技术 发 布 了 一 个 有 很 大 潜在 风险 的 新 特性 , 如 新 的 搜索 功能 、 账 户 创建 
流程 或 数据 库 查 询 。 在 将 所 有 代码 都 部 署 到 生产 环境 中 之 后 , 禁用 新 特性 ,然后 通过 修改 用 户 会 
话 代码 调用 新 函数 ， 不 向 用 户 显示 调用 结果 ， 而 仅 记录 或 丢弃 测试 结 


例如 ， 我 们 可 以 让 1% 的 在 线 用 户 对 将 要 发 布 的 新 特性 做 隐 式 调用 ， 同 时 观察 新 特性 在 此 工 
作 负 载 下 的 表现 。 在 发 现 并 解决 完 所 有 问题 后 ,提高 用 户 访问 频率 并 增加 用 户 数量 ,以 此 逐渐 增 
加 模拟 的 负载 。 通过 这 种 方式 ,就 能 够 安全 地 模拟 出 接近 于 生产 环境 的 负载 ， 从 而 确信 服务 能 
常 运行 。 

此 外 ， 在 发 布 特性 时 ， 可 以 采用 渐进 的 方式 将 其 开放 给 一 小 部 分 客户 。 一 旦 出 现任 何 问题 ， 
就 中 止 发 布 。 这 样 做 可 以 把 实际 使 用 该 特性 的 客户 的 数量 降 至 最 低 ， 一 旦 发 现 缺陷 或 性 能 问题 ， 
就 关闭 该 特性 。 
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John Allspaw 在 2009 年 担任 Flickr 运 营 副 总 裁 时 ,向 雅虎 高 管 团 队 汇报 了 他 们 的 黑 启 动 流程 。 


他 写 道 : 
我 不 知道 

















“ 黑 启 动 已 经 让 每 个 人 的 信心 大 到 几乎 对 它 冷漠 的 程度 ， 大 家 根本 就 不 担心 负载 问题 。 
， 在 过 去 5 年 里 的 每 一 天 中 , 发生 过 多 少 次 代码 部 署 …… 我 根本 就 不 在 乎 ， 因 为 生产 环 





境 中 的 变更 发 生 问题 的 概率 极 低 。 当 出 现 问题 时 ，Flickr 的 任何 工作 人 员 都 可 以 在 一 个 网 页 上 找 





到 答案 : 





何 时 做 的 变更 ， 是 谁 做 的 ， 变 更 了 什么 〈 逐 行 显示 代码 变更 )”” 


在 应 用 和 环境 中 构建 合适 的 生产 遥测 系统 以 后 ,就 可 以 实现 更 快 的 反馈 周期 。 这 样 一 来 ， 当 
把 某 个 特性 部 署 到 生产 环境 之 后 ， 便 可 以 立刻 验证 业务 假设 和 结 











通过 这 种 方式 ， 我 们 再 也 不 用 等 到 大 规模 的 发 布 以 后 才能 验证 客户 对 产品 的 满意 度 。 相 反 ， 








在 宣布 进行 重大 发 布 时 , 我 们 已 经 完成 了 对 业务 假设 的 验证 , 并 且 在 真实 的 客户 中 进行 了 无 数 次 
的 改良 实验 ， 这 些 措 施 有 助 于 提高 产品 和 客户 需求 的 匹配 度 。 














* 案例 研究 * 
Facebook 聊天 功能 的 黑 启动 过 程 (2008 年 ) 


若 以 网 页 浏览 量 和 独立 访客 数量 来 衡量 ，Facebook 一 直 是 近 10 年 来 最 受 欢迎 的 一 


个 网 站 。2008 年 ，Facebook 的 日 活跃 用 户 数 超过 7000 万 , 这 给 Facebook 开发 聊天 功能 
的 团队 带 来 了 挑战 。” 


聊天 功能 开发 团队 的 工程 师 Eugene Letuchy 描述 了 并 发 用 户 数 给 软件 工程 带 来 的 


巨大 挑战 :“ 在 聊天 系统 中 ， 最 耗费 资源 的 操作 并 不 是 发 送 消息 ， 而 是 为 每 个 在 线 用 户 
都 持续 更 新 其 好 友 在 线 、 离 开 或 离线 的 状态 ， 以 便 开 始 聊天 。” 


Facebook 的 团队 几乎 花 了 一 年 的 时 间 才 实现 这 个 计算 密集 型 特性 。 “该 项 目的 复杂 


性 在 于 ， 为 了 达到 所 需 的 性 能 ， 需 要 用 到 各 种 编程 语言 ， 包 括 C++、JavaScript 和 PHP， 
并 在 后 端的 基础 设施 中 首次 使 用 Erlang。 


在 团队 这 一 年 的 奋斗 过 程 中 ， 他 们 每 天 都 把 代码 提交 到 版 本 控制 系统 里 ， 然 后 至 少 


每 天 都 做 一 次 生产 环境 部 署 , 刚 开始 时 ,聊天 功能 只 对 团队 成 员 开 放 , 后 米 对 所 有 Facebook 
员工 开放 。 通 过 Facebook 的 特性 开关 服务 Gatekeeper， 聊 天 功能 对 外 部 用 户 完 全 不 可 见 。 


作为 黑 启 动 流程 的 一 部 分 ， 每 个 Facebook 用 户 会 话 (在 用 户 端 浏览 器 中 运行 


JavaScript 代码 ) 都 加 载 了 测试 工具 。 虽然 聊 天 功能 的 用 户 界 面 元 素 被 隐藏 起 来 ,但 浏览 器 
还 是 会 向 已 部 署 在 生产 环境 中 的 后 侣 聊天 服务 器 发 送 用 户 不 可 见 的 聊天 测试 信息 , 这 使 开 




















QD Facebook 的 发 布 工程 总 监 Chuck Rossi 也 谈 道 :“ 我 们 计划 在 未 来 6 个 月 里 推出 的 特性 ， 其 所 有 的 代码 都 已 经 被 部 


署 到 了 生产 服务 器 上 。 我 们 要 做 的 就 是 将 它们 逐一 开放 。” 








@) 到 2015 年 ，Facebook 的 活跃 用 户 数 已 经 超过 10 亿 ， 比 前 一 年 增长 了 17%。 
@ 计算 需要 极端 的 立方 阶 模型 。 换 句 话说, 计算 时 间 随 着 在 线 用 户 数 、 好 友人 数 , 以 及 好 友 状 态 的 变化 频率 呈 指 数 增加 。 
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发 团队 能 够 在 整个 项 目 过 程 中 模拟 出 类 生产 负载 ， 从 而 在 发 布 之 前 找 出 并 解决 性 能 问题 。 


这 种 方式 使 得 每 个 Facebook 用 户 都 成 为 大 规模 负载 测试 的 一 份子 ， 开 发 团队 由 此 
可 以 相信 ， 系 统 能 够 处 理 真实 的 负载 。 聊 天 功能 的 发 布 和 启用 只 需要 两 个 步骤 : 在 
Gatekeeper 上 将 聊天 功能 配置 为 对 某 些 外 部 用 户 可 见 ， 然 后 让 用 户 重 新 加 载 浏 览 器 中 的 
JavaScript 代码 ， 使 聊天 功能 的 用 户 界 面 元 素 可 见 ， 同 时 禁用 测试 代码 。 在 出 现 问题 时 ， 
用 相反 的 步骤 撤回 聊天 功能 。 发 布 之 日 相当 成 功 和 平静 ,用 户 量 几乎 在 一 夜 之 间 从 零 涨 
到 7000 万 。 聊 天 功能 的 开放 是 渐进 式 的 : 首先 对 所 有 Facebook 员工 开放 ， 然 后 是 1% 
的 客户 群 ， 再 然后 是 5%， 等 等 。 正如 Eugene Letuchy 所 说 :“ 在 一 夜 之 间 把 用 户 量 从 零 
涨 到 7000 万 的 秘诀 就 是 ， 千 万 别 想 一 步 登 天 。 


12.3 ”持续 交付 和 持续 部 署 实践 的 调查 


在 《持续 交付 : 发布 可 靠 软件 的 系统 方法 》 一 书 中 ，Jez Humble 和 David Farley 定义 了 持续 
交付 这 一 概念 。 持 续 部 署 这 个 术语 最 早 则 是 由 Tim Fitz 在 他 的 博客 文章 “IMVU 的 持续 部 署 : 不 
可 思议 的 每 天 50 次 ”中 提出 的 。 然 而 ，Jez Humble 在 2015 年 参与 写作 本 书 时 评论 道 :“ 在 过 去 
的 5 年 里 ， 人 们 对 持续 交付 和 持续 部 署 的 区 别 有 所 误解 。 的 确 , 我 自己 对 二 者 的 看 法 和 定义 也 发 
生 了 改变 。 每 个 组 织 都 应 该 根据 自己 的 需求 做 出 选择 。 我 们 不 应 该 关注 形式 ， 而 应 该 关注 结 
部 署 应 该 是 低 风 险 、 按 需 进 行 的 一 键 式 操作 。 


他 对 持续 交付 和 持续 部 署 的 新 定义 如 下 。 


持续 交付 是 指 ， 所 有 开发 人 员 都 在 主干 上 进行 小 批量 工作 , 或 者 在 短 时 间 存 在 的 特 
性 分 支 上 工作 , 并 且 定 期 向 主干 合并 ， 同 时 始终 让 主干 保持 可 发 布 状态 ， 并 能 做 到 在 正 
常 的 工作 时 段 里 按 需 进行 一 键 式 发 布 。 开 发 人 员 在 引入 任何 回归 错误 时 (包括 缺陷 、 性 
能 问题 、 安 全 问题 、 可 用 性 问题 等 )， 都 能 快速 得 到 反馈 。 一 旦 发 现 这 类 问题 ， 就 立即 
加 以 解决 ， 从 而 保持 主干 始终 处 于 可 部 署 状 态 。 

















持续 部 署 是 指 ， 在 持续 交付 的 基础 上 ,由 开发 人 员 或 运 维 人 员 自 助 式 地 定期 向 生产 
环境 部 署 优质 的 构建 版 本 , 这 通常 意味 着 每 天 每 人 至 少 做 一 次 生产 环境 部 署 ， 甚 至 每 当 
开发 人 员 提 交代 码 变 更 时 ， 就 触发 一 次 自动 化 部 署 。 


从 上 述 定义 可 知 , 持续 交付 是 持续 部 署 的 前 提 条 件 , 就 像 持 续集 成 是 持续 交付 的 前 提 条 件 一 
样 。 持 续 部 署 更 适用 于 交付 线 上 的 Web 服务 ， 而 持续 交付 适用 于 几乎 任何 对 质量 、 交 付 速度 和 
结果 的 可 预测 性 有 要 求 的 低 风 险 部 署 和 发 布 场景 ， 包 括 藤 入 式 系统 、 商 用 现货 产品 和 移动 应 用 。 

在 亚马逊 和 谷歌 ， 大 多 数 团队 都 采用 持续 交付 实践 ， 但 也 有 一 些 团队 选 择 持 续 部 署 ; 因此， 


不 同 团队 部 署 代 码 的 频率 和 操作 方式 有 很 大 差异 。 团队 有 权 根 据 自 己 的 风险 管理 能 力 选 择 部 署 方 
式 。 例 如 ，Google App Engine 团队 通常 每 天 部 署 一 次 ， 谷 歌 搜索 团队 则 每 周 部 署 多 次 。 
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本 书 中 的 大 多 数 案例 都 与 持续 交付 有 关 ， 例 如 在 惠普 LaserJet 打印 机 上 运行 的 霸 入 式 软件 、 
在 COBOL 大 型 机 应 用 等 20 个 技术 平台 上 运行 的 CSG 票据 打印 系统 , 以 及 Facebook 和 Etsy。 持 
续 交 付 可 用 于 很 多 类 型 的 软件 平台 ， 包 括 手机 、 控 制 卫星 的 地 面 站 等 。 
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正如 Facebook、Etsy 和 CSG 的 案例 所 示 ， 发 布 和 部 署 不 一 定 是 高 风险 、 状 况 百 出 的 工作 ， 
也 不 一 定 需要 几 十 个 甚至 几 百 个 工程 师 加 班 加 点 地 完成 。 相 反 , 它们 可 以 成 为 日 常 工作 的 一 部 分 。 


将 发 布 和 部 署 融和 日常 工作 , 能 够 把 部 署 时 间 从 几 个 月 缩短 到 几 分 钟 ,使 组 织 能 够 快速 地 向 
客户 交付 价值 ， 同 时 避免 意外 事故 和 服务 中 断 。 此 外 , 开发 人 员 和 运 维 人 员 的 紧密 合作 ， 能 使 运 
维 工作 变 得 人 性 化 。 
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几乎 每 个 DevOps 模范 公司 都 曾 因 为 架构 问题 而 身 陷 绝 境 ， 包括 LinkedIn、 谷 歌 、eBay、 亚 
马 逊 和 Etsy。 这 些 公司 最 终 都 化 险 为 吏 ，, 其 秘诀 是 采用 更 合理 的 架构 ， 从 而 在 解决 问题 的 同时 满 
足 业务 需求 。 


这 就 是 演进 式 架构 原则 ， 正 如 Jez Humble 所 说 :“ 任 何 成 功 的 产品 或 公司 ， 其 架构 都 必须 在 
生命 周期 里 不 断 演进 。”Randy Shoup 在 加 入 谷歌 以 前 , 曾 在 2004 ~ 2011 年 期 间 担 任 eBay 的 首席 
工程 师 和 架构 师 。 他 曾 说 :“eBay 和 谷歌 都 曾 自 上 而 下 地 把 整个 架构 进行 了 5 次 重 构 。” 


他 回忆 道 :“ 现 在 看 来 ， 当 时 的 一 些 技术 和 架构 选择 很 有 和 远见， 其 他 一 些 则 不 然 。 对 于 组 织 
当时 的 目标 而 言 ， 每 个 决策 都 是 最 好 的 。 如 果 一 开始 在 1995 年 就 试图 实现 微服 务 架构 ， 那 么 我 
们 极 有 可 能 失败 ， 让 自己 不 堪 重 负 ， 甚 至 危及 整个 公司 。 ” 

如 何 从 已 有 的 架构 转 为 新 的 架构 ， 这 是 一 大 挑战 。 当 需要 重新 设计 架构 时 ，eBay 先 做 了 一 


` 型 试点 项 目 ， 以 此 证 明 对 问题 的 理解 是 充分 和 彻底 的 。 例 如 在 2006 年 ， Randy Shoup 的 团队 
计划 将 网 站 的 某 些 功能 迁移 到 全 栈 Java 架构 ， 他 们 按 业务 收入 将 页 面 做 了 排序 ， 从 而 识别 出 能 
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获得 最 佳 投入 产 出 比 的 网 站 功能 。 通 过 对 这 些 功 能 进行 架构 迁移 试点 , 他 们 避免 了 付出 得 不 到 回 
报 的 问题 。 


Randy Shoup 的 团队 在 eBay 做 了 教科 书 式 的 架构 设计 演进 ,他 们 采用 了 绞 杀 者 应 用 ( strangler 
application ) 模式 ， 而 不 是 在 无 法 继续 满足 组 织 目 标的 架构 上 直接 “ 别 离 和 替换 ” 旧 服 务 。 首 先 
将 已 有 功能 用 API 封装 起 来 , 避免 对 它们 做 变更 ; 然后 在 使 用 新 架构 的 新 服务 中 实现 所 有 的 新 功 
能 ， 只 有 在 必要 的 时 候 才 调用 旧 系 统 的 API。 

绞 杀 者 应 用 模式 尤其 适用 于 将 单 体 应 用 或 紧 耦 合 服务 的 部 分 功能 迁移 至 松 耦 合 架构 。 我 们 
经 常 发 现 自己 面 对 的 是 数 年 前 (或 数 十 年 前 ) 设计 的 紧 耦 合 架 构 ， 其 各 个 组 件 之 间 的 依赖 关系 非 
常 强 。 













































































Q@ eBay 的 架构 演进 过 程 如 下 : Perl 语言 加 文件 系统 ( v1，1995 年 )，C++ 语 言 加 Oracle 数据 库 (v2，1997 年 )，XSL 
加 Java 语 言 (v3，2002 年 )， 全 栈 Java 语 言 (v4，2007 年 )，Polyglot 微服 务 (从 2013 年 开始 )。 
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过 于 紧 耦 合 的 架构 可 能 带 来 这 样 的 后 果 : 每 当 试 图 提交 代码 到 主干 , 或 将 代码 发 布 到 生产 环 
境 中 时 ， 都 有 可 能 导致 整 个 系统 出 现 故障 〈 例 如， 提交 的 代码 破坏 了 其 他 所 有 人 的 测试 和 功能 ， 
或 者 让 整个 网 站 骨 省 )。 为 了 避免 发 生 这 种 情况 ， 任 何 小 规模 的 变更 都 需要 数 天 或 数 周 的 大 量 沟 
通 和 协调 工作 , 还 可 能 需要 得 到 所 有 利益 相关 者 的 批准 。 部 署 工作 也 困难 重重 : 每 次 部 署 的 工作 
量 增加 ， 集 成 和 测试 工作 变 得 更 加 复杂 ， 问 题 发 生 的 概率 也 进一步 增加 。 


即便 是 进行 小 规模 的 部 署 变 更 ， 也 可 能 需要 与 数 百 位 ( 甚至 数 千 位 ) 相关 的 开发 人 员 协 调 ， 
其 中 的 任何 一 个 变更 操作 都 有 可 能 引发 灾难 性 故障 ， 而 定位 并 解决 问题 很 可 能 需要 数 周 的 时 间 。 
(这 导致 了 另 一 个 问题 :“ 开 发 人 员 只 有 15% 的 时 间 写 代码 ， 其 余 的 时 间 都 花 在 了 会 议 上 。”) 


上 述 所 有 问题 共同 导致 了 极 不 安全 的 工作 系统 , 即使 是 小 变更 也 会 造成 不 可 预知 的 灾难 性 后 
果 。 这 样 的 系统 还 常常 导致 对 集成 和 部 署 代 码 的 专 惧 ， 并 形成 恶性 循环 ， 使 部 署 频 率 越 来 越 低 。 


从 企业 架构 的 角度 来 看 , 这 个 恶性 循环 的 形成 符合 热力 学 第 二 定律 , 对 于 复杂 的 大 型 组 织 ? 
说 更 是 如 此 。Architecture and Patterns for IT Service Management, Resource Planning, and Governance 
一 书 的 作者 Charles Betz 指出 :“[IT 项 目 负 责 人 ] 并 不 对 整个 系统 的 炉 " 负 责 。” 换 句 话 说 ， 降 低 系 
统 的 整体 复杂 性 ， 以 及 提高 整个 开发 团队 的 生产 力 ， 几 乎 从 来 就 不 是 某 一 个 人 的 目标 。 

本 章 将 介绍 可 以 逆转 上 述 恶 性 循环 的 措施 , 同时 回顾 一 些 主 要 的 架构 原型 , 探究 有 助 于 提高 
开发 生产 力 、 可 测试 性 、 可 部 署 性 和 安全 性 的 架构 特性 ， 以 及 相关 的 架构 迁移 策略 ， 以 便 从 任何 
现 有 架构 安全 地 迁移 至 能 更 好 地 实现 组 织 目 标的 架构 。 
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紧 耦 合 架构 不 仅 会 降低 生产 力 , 还 会 影响 安全 变更 的 能 力 。 接 口 定 义 清 晰 的 松 耘 合 架构 则 与 
之 相反 ,， 它 优化 了 模块 间 的 依赖 关系 ， 提 高 了 生产 力 和 安全 性 ,证 小 型 且 高 产 的 “ 双 比 萨 ” 团 队 
可 以 执行 小 的 变更 ,并 能 安全 和 独立 地 进行 部 署 。 因 为 每 个 服务 都 有 一 个 定义 明确 的 API， 所 以 
更 容易 测试 ， 团 队 之 间 的 服务 等 级 协议 条 款 也 更 容易 确定 。 


正如 Randy Shoup 所 说 :“ 这 种 类 型 的 架构 极其 适合 于 谷歌 。 像 Gmail 这 样 的 服务 ， 下 面 还 
有 五 六 层 服 务 , 每 层 服务 都 专注 于 某 个 特定 功能 。 每 个 服务 都 由 一 个 小 型 团队 提供 支持 , 他们 负 
责 服 务 的 构建 和 运行 ， 但 每 个 团队 选择 的 技术 各 不 相同 。 男 一 个 例子 是 Google Cloud Datastore， 
它 是 世界 上 最 大 的 一 个 NoSQL 服务 ,但 其 支持 团队 只 有 大 约 8 个人， 这 主要 是 因为 它 是 构建 在 
一 层 层 可 靠 的 基础 服务 之 上 的 。”( 见 图 13-1 ) 


这 种 面向 服务 的 架构 能 让 小 型 团队 各 自负 责 更 小 、 更 简单 的 开发 任务 , 并 且 每 个 团队 都 可 以 





































































































@ 在 热力 学 中 ， 业 可 以 被 简单 地 理解 为 对 系统 无 序 程度 的 表示 。 根 据 热力 学 第 二 定律 ， 扳 立 系统 的 焙 值 永 不 减少 。 
一 一 编者 注 
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独立 、 快 速 和 安全 地 进行 部 署 。Randy Shoup 指出 :“ 谷 歌 和 亚马逊 等 例子 表明 , 这样 的 架构 能 
影响 组 织 结构 ， 从 而 使 组 织 拥 有 灵活 性 和 可 扩展 性 。 这 些 组 织 都 有 成 千 上 万 的 开发 人 员 , 但 他 们 
的 小 型 团队 仍然 能 展现 出 令 人 难以 置信 的 生产 力 。 





Google Cloud Datastore 


。Cloud Datastore: NoSQL 服 务 So tire 
- 可 扩展 性 和 可 靠 性 很 高 
- 事务 一 致 性 很 强 
要 类 SQL 查询 能 力 很 强 Megastore 
。 Megastore: 可 跨 区 扩展 的 结构 型 数据 库 
-支持 多 行事 务 
- 跨 数据 中 心 同步 复制 Bigtable 
。Bigtable: 集群 级 别 的 结构 化 存储 
- ( 行 、 列 、 时 间 惟 ) -> 单元 内 容 
。Colossus: 下 一 代 集 群 文件 系统 
-数据 块 的 分 布 和 复制 
* 集群 管理 基础 设施 
- 任务 调度 和 机 器 分 配 



























































Cluster Manager 








图 13-1 谷歌 云 数据 库 服 务 Google Cloud Datastore 
(来 源 ，Randy Shoup,“ 从 单 体 应 用 到 微服 务 ”) 





13.2 ”架构 原型 : 单 体 架 构 与 微服 务 


大 多 数 DevOps 组 织 都 曾 深 深 地 被 紧 看 合 的 单 体 架 构 困 扰 。 虽 然 单 体 架 构 非常 成 功 地 帮助 这 
些 组 织 实现 了 产品 与 市 场 的 高 度 契 合 , 但 是 当 组 织 规模 扩大 后 ,这 样 的 架构 却 成 了 很 大 的 隐患 ( 例 
如 ， eBay 在 2001 年 的 单 体 C++ 应 用 、 亚 马 逊 在 2001 年 的 单 体 Obidos 应 用 、Twitter 在 2009 年 的 
单 体 Rails 前 端 ， 以 及 LinkedIn 在 2011 年 的 单 体 Leo 应 用 )。 在 这 些 案例 中 ， 每 个 公司 最 终 都 重 
构 了 自己 的 系统 ， 不 仅 帮 助 自 己 生存 下 来 ， 而 且 匣 壮 成 长 ， 并 在 市 场 中 赢得 一 席 之 地 。 


单 体 架构 的 本 质 并 不 坏 。 事实 上 , 在 产品 生命 周期 的 早期 阶段 , 单 体 架 构 通 常 是 最 佳 的 选择 。 
正如 Randy Shoup 所 说 :“ 没 有 一 个 可 以 适用 于 所 有 产品 和 规模 的 完美 架构 。 任 何 架 构 都 能 满足 
特定 的 一 组 目标 , 或 一 系列 需求 和 条 件 , 例如 上 市 时 间 、 易 于 功能 开发 和 系统 扩展 等 。 随 着 时 间 
的 推移 ， 任 何 产品 或 服务 的 功能 必然 都 要 与 时 俱 进 ; 毫 无 疑问 ,架构 需求 也 一 样 。 那些 为 普通 规 
模 设计 的 架构 ， 很 少 能 在 10 倍 或 100 倍 的 规模 下 有 效 。 

表 13-1 展示 了 主要 的 架构 原型 ， 每 一 行 对 应 一 个 组 织 需求 ， 后 两 列 分 别 给 出 了 每 种 原型 的 
优点 和 缺点 。 从 表 中 可 以 看 出 , 适用 于 创业 公司 的 单 体 架构 (例如, 需要 为 新 特性 快速 创建 原型 ， 
或 者 公司 的 战略 目标 可 能 出 现 重 大 改变 ) 完全 不 同 于 拥有 数 百 个 开发 团队 的 公司 所 采用 的 架构 ， 
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后 者 的 每 一 个 团队 都 要 能 够 独立 地 向 客户 交付 价值 。 通 过 采用 与 时 俱 进 的 演进 式 架 构 ,， 能 够 确保 | 
组 织 当下 的 需求 得 到 满足 。 


表 13-1 架构 原型 (来源 : Randy Shoup, “从 单 体 应 用 到 微服 务 ”) 


























































































































优点 缺 ”点 
。 协调 成 本 随 团 队 规模 增加 
ee 模块 划分 得 不 清晰 
1 
各 用 里 】 。。。。。 。， 一 个 代码 库 ， 一 个 部 团 对 旬 本 
应 用 里 ) 全 。 部 署 要 么 全 面 成 功 ， 要 么 彻底 失败 ( 停机、 故障 ) 
。 当 规 模 小 时 ， 资 源 利用 率 高 : 
。 构建 时 间 长 
。 耦合 程度 随时 间 提高 
人 。 开始 简单 耦 人 
en? 。 不 容易 扩展 ， 宛 余 能 力 差 ( 要 么 全 做 ,要 么 没有 ， 
(一 组 单 体 层 : “前端 ”“ 仅 支 持 垂直 方向 扩展 ) 
展示 ”“ 应 用 服务 器 ” 。 一 个 数据 库 模式 ， 一 个 部 署 对 象 。 。 不 安 易 油 估 
人 。 当 规模 小 时 ， 资 源 利用 率 高 Se 
Ee ve 。 数据 库 模式 管理 要 么 全 面 ， 要 么 彻底 没有 
微服 务 。 每 个 单元 都 是 简单 的 。 交互 单元 很 多 
(模块 化 、 独立 、 图 形 。 可 扩展 性 和 性 能 都 是 独立 的 。 需要 很 多 个 小 代码 库 
关系 而 不 是 分 层 、 隔 “。 独立 的 测试 和 部 团 。 需要 更 复杂 的 工具 和 依赖 项 管理 
离 的 持久 化 ) 。 能 做 性 能 的 调 优 ( 缓存 、 复 制 等 ) 。 网 络 延迟 





* 案例 研究 * 
亚马逊 的 演进 式 架 构 〈2002 年 ) 


亚马逊 的 架构 演进 是 被 研究 得 最 多 的 一 个 案例 。 首 席 技术 官 Werner Vogels 在 接受 
ACM 图 灵 奖 获得 者 和 微软 技术 院士 Jim Gray 的 采访 时 说 :“1996 年 ， 亚 马 示 始 于 一 个 
单 体 应 用 ， 它 运行 在 有 后 端 数据 库 的 Web 服务 器 上 。 这 个 名 为 Obidos 的 应 用 最 终 拥 有 
了 所 有 的 业务 逻辑 、 显 示 逻 辑 ， 以 及 亚 马 进 最 著名 的 功能 : 相似 产品 、 商 品 推荐 、 


rr 


Listmania、 评 论 ， 等 等 。 


随 着 时 间 的 推移 , Obidos 变 得 越 来 越 复杂 ,共享 关系 的 复杂 造成 某 些 组 件 不 能 按 需 
扩展 。Werner Vogels 告诉 Jim Gray 说 :“ 这 意味 着 ， 我 们 所 期 望 那些 在 优秀 的 软件 架构 
中 能 发 生 的 许多 事 ， 都 无 法 实现 ， 因 为 这 是 由 很 多 复杂 的 组 件 构成 的 单 体系 统 。 它 不 可 
能 再 继续 演进 下 去 了 。 

在 描述 向 新 架构 演进 的 心路 历程 时 ，Werner Vogels 说 道 : “经 过 认真 的 反省 后 ， 我 
们 得 出 的 结论 是 ， 只 有 面向 服务 的 架构 才能 提供 所 需 的 隔离 度 , 从 而 让 我 们 能 够 快速 且 
独立 地 构建 软件 组 件 。” 
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Werner Vogels 继续 说 道 :“ 亚 马 逊 在 过 去 的 5 年 (这 里 指 2001~2005 年 ) 里 经 历 了 


巨大 的 架构 变迁 : 从 两 层 的 单 体 架构 彻底 转 为 分 布 式 的 去 中 心 化 服务 平台 ,该 平台 服务 
于 大 量 不 同 的 应 用 。 这 一 成 果 依赖 于 大 量 创 新 ， 我 们 是 这 种 转型 的 早期 实践 者 。” 亚 马 
示 的 经 验 教训 对 我 们 理解 架构 转型 很 重要 。 


口 经 验 1: 严格 遵从 面向 服务 理念 的 架构 设计 能 完美 地 实现 隔离 ， 从 而 达到 前 所 未 
有 的 掌控 水 平 。 

口 经 验 2: 禁止 客户 端 直接 访问 数据 库 , 使 在 不 涉及 客户 端的 情况 下 提高 服务 状态 

的 可 扩展 性 和 可 靠 性 成 为 可 能 。 

口 经 验 3: 在 切换 到 面向 服务 的 架构 后 ， 开 发 和 运 维 流程 将 受益 菲 浅 。 服务 模 式 进 
一 步 强化 了 以 客户 为 中 心 的 团队 理念 。 每 个 服务 都 有 一 个 与 之 对 应 的 团队 ,该 
团队 对 服务 全 面 负责 ( 从 功能 规划 到 架构 设计 、 构 建 和 运 维 )。 





运用 以 上 经 验 , 开发 人 员 的 生产 力 和 可 靠 性 将 得 到 极 大 的 提升 。2011 年 ,亚马逊 每 


天 执行 大 约 15 000 次 部 署 ; 到 2015 年， 日 部 署 量 达 到 近 136 000 次 。 
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4 年 ，Martin Fowler 创造 了 绞 杀 者 应 用 这 一 术语 。 这 源 于 他 在 澳大利亚 旅行 时 由 当地 攻 


类 绞 杀 植物 得 到 的 启发 。 他 写 道 :“ 它 们 的 种 子 落 在 无 花 有 果树 的 顶部， 然后 腾 荔 逐渐 沿 树 干 向 下 
生长 ， 最 后 在 土壤 中 生根 。 多 年 以 后 ， 滕 营 形 成 奇妙 和 美丽 的 形状 ,但 同时 绞 杀 了 其 宿主 树 。” 
如 果 确 信 已 有 的 架构 过 于 紧 矶 合 ,那么 可 以 在 其 基础 上 安全 地 解 看 部 分 功能 ,通过 这 种 方式 ， 
人 负 贡 这 些 功 能 的 开发 团队 能 够 独立 且 安 全 地 进行 开发 、 测 试 和 部 署 ， 同 时 减少 了 架构 的 信 。 
如 前 所 述 , 绞 杀 者 应 用 模式 涉及 用 API 封装 已 有 功能 ,并 按照 新 架构 实现 新 的 功能 , 仅 在 必 
要 时 调用 旧 系 统 。 在 绞 杀 者 应 用 模式 下 ,所 有 服务 都 通过 版 本 化 API 访 问 ,也 称 为 版 本 化 服务 或 


不 可 变 月 

















及 务 。 

















版 本 化 API 能 够 在 不 影响 调用 者 的 情况 下 变更 服务 ， 这 降低 了 系统 的 耦合 度 。 如 果 需 要 修改 
参数 ， 就 创建 一 个 新 的 API 版 本 ， 并 将 依赖 该 服务 的 团队 迁移 至 新 版 本 。 如 果 人 允许 新 的 应 用 与 其 


























他 任何 服务 发 生 紧 耦 合 〈 例如 直接 连接 到 另 一 个 服务 的 数据 库 )， 那 么 我 们 将 无 法 实现 重 构架 构 的 


目标 。 





端 库 中 ， 





如 果 调 用 的 服务 没有 清晰 定义 的 API, 那么 就 要 构建 它们 , 或 至 少 在 有 清晰 API 定 义 的 客户 


隐藏 与 这 种 系统 通信 的 复杂 性 。 






































通过 不 断 地 从 已 有 的 紧 耦 合 系统 中 解 耦 功能 , 工作 被 逐渐 转移 到 一 个 安全 且 充 满 活力 的 生态 


系统 中 9 














这 使 开发 人 员 的 生产 力 大 大 提高 ,同时 已 有 的 应 用 功能 逐渐 萎缩 。 当 所 有 业务 功能 都 迁 


移 至 新 架构 之 后 ， 旧 应 用 甚至 可 能 完全 消失 。 
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通过 创建 绞 杀 者 应 用 , 可 以 避免 运用 新 架构 或 新 技术 复制 已 有 功能 。 现 有 系统 本 身 的 特点 使 
得 业务 流程 变 得 过 于 复杂 ,因此 复制 现 有 流程 不 可 取 ( 通过 研究 用 户 ,往往 能 够 重新 设计 业务 流 
程 ， 用 更 简单 的 流程 来 实现 业务 目标 ) “” 

Martin Fowler 强调 了 这 种 风险 :“ 我 在 职业 生涯 的 大 部 分 时 间 里 都 在 重 写 关 键 系统 。 你 会 认 
为 这 种 事情 很 容易 一 一 只 是 做 一 个 蔡 换 旧 系 统 的 新 系统 而 已 。 然 而 ,实际 情 况 要 复杂 得 多 ,， 并且 
充满 了 风险 。 在 新 旧 系统 替换 日 期 临近 时 ， 你 会 感到 各 种 压力 。 昌 然 新 特性 〈 总 是 有 新 特性 ) 很 
受 欢 迎 ， 但 是 有 些 旧 的 东西 也 必须 保留 下 来 ， 甚 至 经 党 要 把 旧 系统 的 bug 也 带 和 新 系统 。 


与 其 他 任何 转型 一 样 , 我们 要 力求 速 战 速决 , 并 在 迭代 中 持续 交付 价值 。 前 期 分 析 有 助 于 识 
别 出 最 小 的 突破 口 ， 让 新 架构 有 效 地 帮助 我 们 实现 业务 目标 。 



































* 案例 研究 * 
Blackboard Learn 的 绞 杀 者 应 用 模式 (2011 年 ) 


Blackboard Inc. 是 给 教育 机 构 提 供 技 术 的 先驱 者 之 一 , 它 在 2011 年 的 年 收入 约 为 6.5 
亿美 元 ,该 公司 的 旗舰 产品 Blackboard Learn 是 可 以 安装 和 运行 在 客户 网 站 上 的 软件 包 ， 
它 的 开发 团队 每 天 都 要 面 对 在 1997 年 开发 的 J2EE 遗留 代码 库 。 首 席 架 构 师 David 
Ashman 描述 说 :“ 在 我 们 的 代码 库 中 ， 仍 然 有 以 前 说 入 的 Perl 代码 片段 。 


2010 年 ，David Ashman 注意 到 旧 系 统 的 复杂 性 和 不 断 延 长 的 交付 时 间 ， 他 说 :“ 我 
们 的 构建 、 集 成 和 测试 流程 越 来 越 复杂 ， 也 越 来 越 容 易 出 错 。 产 品 越 大 ， 交 付 时 间 就 越 
长 ， 客 户 体验 也 就 越 差 。 为 了 从 集成 流程 中 得 到 反馈 ， 甚 至 需要 等 上 24~36 小时。 


根据 源 代码 库 自 2005 年 以 来 的 情况 ，David Ashman 通过 图 示 直观 地 展现 了 开发 人 
员 的 生产 力 所 受 到 的 影响 。 


在 图 13-2 中 ， 上 部 的 曲线 表示 Blackboard Learn 单 体 应 用 代码 库 中 的 代码 行 数 ; 下 
部 的 柱状 图 表示 代码 提交 次 数 。 问 题 很 明显 :代码 提交 次 数 随 着 代码 行 数 的 增加 而 减少 。 
这 客观 地 反映 出 ， 代 码 变 更 越 来 越 困 难 。David Ashman 指出 :“ 在 我 看 来 ， 我 们 必须 做 
些 什 么 ， 否 则 这 个 问题 会 继续 恶化 下 去 。 























@ 绞 杀 者 应 用 模式 循序 渐进 地 将 整个 遗留 系统 蔡 换 成 全 新 的 系统 。 相 反 ，Paul Hammant 创造 的 术语 抽象 分 支 
( branching by abstraction ) 描述 的 是 在 变更 对 象 之 间 创 建 抽象 层 的 技术 。 抽 象 分 支 使 应 用 架构 设计 可 以 演进 下 去 ， 
同时 允许 每 个 人 在 分 文 上 工作 并 实践 持续 集成 。 
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代码 行 数 


# 代码 提交 次 数 


2005 2006 2007 2008 2009 12010 1 2011 2012 2013 





图 13-2 Blackboard Learn 在 采用 “构建 模块 ”之 前 的 代码 库 
(来 源 : David Ashman 在 2014 年 的 DevOps 企业 峰会 上 的 演讲 ) 





因此 ，David Ashman 在 2012 年 开始 专注 于 运用 绞 杀 者 应 用 模式 重 构 代 码 。 他 的 团 
队 通 过 创建 所 谓 的 “构建 模块 ”来 实现 这 一 点 。“ 构 建 模 块 ”使 开发 人 员 可 以 工作 在 独 
立 的 模块 中 , 这 些 模 块 是 从 单 体 应 用 的 代码 库 中 解 耦 出 来 的 ,并 通过 固定 的 API 进行 访 
问 。 这 使 团队 能 够 更 自主 地 工作 ,而 不 必 与 其 他 开发 团队 不 断 沟通 和 协调 。 


当 所 有 开发 人 员 都 用 上 “构建 模块 ”之 后 , 单 体 应 用 的 源 代 码 库 的 规模 开始 缩减 ( 代 
码 行 数 减少 )。David Ashman 解释 说 ， 这 是 因为 开发 人 员 将 他 们 的 代码 迁移 到 了 “构建 
模块 ”的 源 代码 库 中 。 他 说 :“ 事 实 上 ， 每 一 位 开发 人 员 都 会 选择 在 “构建 模块 ”的 代 
码 库 中 工作 ， 因 为 这 样 做 更 自主 、 更 自由 ， 也 更 安全 。 


图 13-3 显示 了 “构建 模块 ”代码 库 中 的 代码 行 数 与 代码 提交 次 数 之 间 的 关系 ， 二 
者 均 呈 指数 增长 。 新 的 “构建 模块 ”代码 库 使 开发 工作 更 加 高 效 和 安全 ， 因 为 错误 只 会 
造成 小 规模 的 本 地 故障 ， 而 不 会 造成 系统 范围 内 的 严重 故障 。 
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图 13-3 Blackboard Leam 在 采用 “构建 模块 ”之 后 的 代码 库 
(来 源 : David Ashman 在 2014 年 的 DevOps 企业 峰会 上 的 演讲 ) 



































David Ashman 总 结 说 :“ 使 开发 人 员工 作 在 “构建 模块 ”架构 中 ， 可 以 在 代码 模块 
化 方面 取得 惊人 的 进步 , 让 他 们 能 够 更 独立 、 更 自由 地 工作 。 随 着 构建 流程 的 不 断 完善 ， 
开发 人 员 也 能 得 到 更 快 、 更 好 的 反馈 ， 这 意味 着 更 高 的 质量 。” 


13.4 ”小 结 


在 很 大 程度 上 ， 服 务 赖 以 生存 的 架构 决定 了 代码 的 测试 和 部 署 方 式 。 这 一 点 已 经 在 Puppet 
Labs 的 《2015 年 DevOps 现状 报告 》 中 得 到 了 验证 。 该 报告 显示 ,架构 是 影响 工程 师 生产 力 的 首 
要 因素 ， 它 还 决定 了 是 否 能 快速 和 安全 地 实施 变更 。 

为 我 们 通常 受制 于 追求 不 同方 向 的 组 织 目 标 和 长 期 存在 的 传统 架构 , 所 以 必须 安全 地 进行 
架构 演进 。 本 章 介绍 的 案例 描述 了 绞 杀 者 应 用 模式 等 技术 , 这 些 技术 可 以 帮助 我 们 逐步 地 推进 架 
构 转 型 ， 从 而 跟 上 组 织 需 求 的 变化 。 

















13.5 ”第 三 部 分 总 结 
在 第 三 部 分 中 , 我 们 实现 了 使 工作 从 开发 到 运 维 快速 流动 的 架构 和 技术 实践 ， 从 而 快速 、 安 
全 地 向 客户 交付 价值 。 


在 第 四 部 分 中 ,我 们 将 创建 使 反馈 从 右 到 左 快速 流动 的 架构 和 机 制 ,更 快 地 发 现 和 解决 问题 ， 
辐射 反馈 信息 ， 确 保 工 作 取得 更 好 的 成 果 ， 从 而 促进 组 织 进 一 步 提高 适应 能 力 。 





第 二 步 : 反馈 的 技术 实践 








在 第 三 部 分 中 ， 我 们 描述 了 如 何 建立 从 开发 到 运 维 的 快速 流动 的 工作 流 ， 以 及 它 所 需要 的 
架构 及 技术 实践 。 在 第 四 部 分 中 ,我 们 将 描述 如 何 实现 第 二 步 工作 法 的 技术 实践 ， 创 建 从 运 维 
到 开发 的 快速 且 持 续 的 反馈 。 


这 个 实践 能 加 快 并 增强 反馈 回路 ， 让 我 们 识别 出 发 生 的 问题 ， 并 把 这 些 信息 反馈 给 价值 流 
中 的 所 有 人 。 这 样 就 可 以 在 软件 开发 生命 周期 的 早期 快速 地 识别 并 修复 问题 ; 在 理想 情况 下 ， 
早 在 导致 灾难 性 事故 发 生 以 前 ， 问 题 就 被 处 理 掉 了 。 


此 外 ,我 们 将 建立 这 样 一 个 工作 系统 : 它 能 把 运 维 团队 在 下 游 获 得 的 知识 ， 整 合 到 上 游 的 
开发 和 产品 管理 的 工作 中 。 这 样 不 管 是 生产 环境 问题 、 软 件 部 署 问题 、 问 题 的 早期 迹象 ， 还 是 
客户 的 使 用 模式 ， 我 们 都 可 以 快速 地 改进 并 从 中 学 习 。 


同时 ,我 们 将 建立 这 样 一 个 流程 : 每 个 人 都 能 获得 工作 反馈 ， 信 息 可 见 以 便于 大 家 学 习 ， 
能 快速 测试 产品 假设 ， 帮 助 我 们 判断 目前 开发 的 特性 是 否 有 助 于 实现 组 织 的 业务 目标 。 


我 们 还 将 阐述 在 构建 、 测 试 和 部 署 的 流程 中 ， 如 何 对 用 户 行为 、 生 产 故障 、 服 务 中 断 、 合 
规 问题 和 安全 漏洞 进行 全 面 监 控 。 通 过 放大 日 常 工作 中 的 反馈 信号 ， 可 以 在 问题 发 生 的 时 候 ， 
立刻 识别 并 解决 它们 ， 同 时 将 工作 系统 打造 得 更 加 安全 ， 让 我 们 有 信心 在 生产 环境 中 实施 变更 
的 同时 开展 产品 实验 ， 确 信和 能 够 快速 探测 和 修复 故障 。 为 了 达到 以 上 效果 ， 需 要 探索 和 落实 如 
下 工作 : 


口 建立 能 定位 和 解决 故障 的 遥测 系统 ; 
口 使 用 监控 更 好 地 预测 故障 ， 感 知 业务 目标 的 达成 情况 ; 
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口 将 用 户 研究 和 反馈 融入 到 研发 团队 的 工作 中 ; 
D 为 开发 和 运 维 提供 反馈 ， 让 他 们 能 安全 地 部 署 应 用 ; 
口 用 同行 评审 和 结对 编程 的 反馈 方式 ， 提 高 工作 质量 。 




















本 部 分 提供 的 实践 模式 ， 有 助 于 强化 产品 管理 、 开 发 、 质 量 保证 、 运 维和 信息 安全 等 团队 
达到 共同 的 目标 ， 豆 励 他 们 共同 承担 如 下 责任 : 保障 服务 在 生产 环境 中 正常 运行 ， 齐心 协力 地 
优化 系统 。 我 们 乔 望 尽 可 能 地 还 原 事情 的 来 龙 去 脉 。 我 们 能 验证 的 假设 越 多 ， 发 现 和 解决 问题 
的 速度 就 越 快 ， 学 习 和 创新 的 能 力也 会 越 强 。 

在 随后 的 儿童 里 我 们 将 探讨 以 下 内 容 : 实现 反馈 回路 ,促使 所 有 人 朝 着 共同 的 目标 协同 工 
作 ， 及 时 地 发 现 问题 ， 快 速 地 探测 和 修复 故障 ， 保 证 软件 能 在 生产 环境 中 按照 预期 运行 ， 而 且 
还 实现 了 组 织 的 业务 目标 ， 同 时 组 织 也 得 到 了 学 习 和 进步 。 
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运 维 团队 无 法 规避 的 一 个 问题 是 发 生 故 障 一 一 一 个 小 小 的 变更 也 会 导致 很 多 意外 后 果 , 包括 
服务 中 断 ， 甚 至 是 对 所 有 客户 造成 影响 的 全 球 性 故障 。 事 实 就 是 : 运 维 团 队 面 对 的 是 复杂 系统 ， 
没有 哪个 人 能 了 解 整个 系统 ， 能 说 清楚 系统 的 每 个 部 分 是 如 何 配合 的 。 


当 服 务 中 断 或 发 生 故 障 时 ,我 们 通常 没有 解决 问题 所 必需 的 所 有 信息 。 例如， 在 服务 中 断 期 
间 ， 我 们 可 能 无 法 定位 造成 问题 的 原因 到 底 是 什么 。 是 应 用 程序 故障 (如 代码 有 缺陷 )、 环 境 故 
障 〈 如 网 络 问题 、 服 务 器 配置 问题 )， 还 是 其 他 外 部 原因 ( 如 大 规模 拒绝 服务 攻击 ) ? 


在 实际 的 运 维 工 作 中 , 我 们 可 能 会 用 这 种 方式 处 理 问题 : 当 生 产 环境 中 出 现 问题 时 ， 先 重启 
这 台 服 务 器 。 如 果 这 样 做 不 起 作用 ， 就 重启 与 之 关联 的 服务 器 。 如 果 这 样 做 还 不 起 作用 ， 就 重启 
所 有 的 服务 咒 。 如 果 还 不 行 的 话 ， 就 开始 指责 开发 人 员 总 是 引起 中 断 。 


与 上 述 方式 截然 相反 ，2001 年 微软 公司 的 运 维 框架 (MOF ) 研究 发 现 : 在 服务 级 别 最 高 的 
组 织 中 ， 服 务 器 重启 的 频率 比 平均 水 平 低 95%,“ 蓝 屏 死 机 率 ” 低 83%。 换 句 话说， 在 定位 和 修 
复 服务 故障 方面 ， 高 绩效 组 织 做 得 更 好 。Kevin Behr 、Gene Kim 和 George Spafford 在 The Visible 
Ops Handbook 一 书 中 称 此 为 “因果 关系 文化 ”。 高 绩效 组 织 在 解决 问题 方面 训练 有 素 ， 他 们 使 用 
生产 环境 中 的 遥测 系统 , 分 析 造 成 故障 的 可 能 因素 , 这 对 解决 问题 有 很 大 帮助 。 低 绩效 者 则 不 然 ， 
他 们 只 会 盲目 地 重启 服务 器 。 


为 了 能 训练 有 素 地 解决 问题 , 我 们 需要 设计 出 能 够 持续 遥测 的 系统 。 通 测 被 广泛 定义 为 “一 
个 自动 化 的 通信 过 程 ， 先 在 远程 采集 点 上 收集 度量 数据 ， 然 后 传输 给 与 之 对 应 的 接收 端 用 于 监 
控 ”"。 目 标 是 在 应 用 及 其 环境 中 建立 遥测 ， 包 括 生 产 环 境 、 预 生产 环境 和 部 署 流 水 线 。 


Michael Rembetsy 和 Patrick McDonnell 曾 说 ,生产 环境 监控 是 Etsy 的 DevOps 转型 ( 始 于 2009 
年 ) 中 关键 的 组 成 部 分 。 与 此 同时 , 他 们 将 整个 技术 栈 标准 化 , 转型 到 LAMP 栈 (Linux、Apache、 
MySQL 和 PHP )。 在 转型 的 过 程 中 , 他 们 抛弃 了 许多 已 经 在 生产 环境 中 使 用 的 技术 ， 因 为 它们 越 
来 越 难 以 维护 。 
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在 2012 年 的 Velocity 会 议 上 ，Patrick McDonnell 描述 了 转型 过 程 中 的 风险 :“ 我 们 正在 改变 
一 些 最 关键 的 基础 设施 ， 理 想 情 况 下 ， 客 户 永 远 不 会 感知 到 。 但 是 ， 如 果 我 们 搞 磺 了， 他 们 就 一 
定 会 发 现 。 我 们 需要 更 多 指标 的 支持 ， 使 工程 团队 和 非 技术 〈 如 市 场 营 销 ) 团队 都 相信 ， 在 实施 
重大 变更 时 ， 业 务 不 会 受到 影响 。 


Patrick McDonnell 进一步 解释 道 :“ 一 开始 我 们 使 用 Ganglia 监控 工具 收集 所 有 服务 器 数据 ， 
然后 用 Graphite 显示 监控 信息 指标 。 公 司 在 Graphite 这 个 开源 工具 上 投入 巨大 。 我 们 开始 聚合 各 
种 指标 ， 涵盖 从 业务 指标 到 部 署 指标 的 所 有 内 容 。 在 部 署 过 程 中 , 我 们 用 “ 非 并 排 和 不 对 称 的 垂 
直线 技术 ”修改 了 Graphite， 使 信息 受 加 显示 在 每 个 指标 图 上 。 通 过 这 种 方式 能 更 快 地 发 现 部 署 
工作 中 的 任何 意外 。 我 们 甚至 在 办 公 室 四 周 的 墙壁 上 悬挂 显示 屏幕 , 让 所 有 人 都 能 看 到 服务 当前 
的 状态 。” 


他 们 让 开发 人 员 在 日 常 功 能 的 开发 过 程 中 就 加 入 遥测 , 这 样 建立 了 足以 保证 安全 部 署 的 远程 
监控 指标 。 到 2011 年 , Etsy 持续 跟踪 20 多 万 个 生产 环境 指标 , 覆盖 了 应 用 程序 栈 的 每 个 层面 ( 如 
应 用 程序 的 功能 、 运 行 状 况 、 数 据 库 、 操 作 系统 、 存 储 、 网 络 、 安 全 等 ) 前 30 个 最 重要 的 业务 
指标 被 突出 地 显示 在 “部 署 仪表 板 ” 上 。 到 2014 年 ， 跟 踪 的 指标 已 经 超过 了 80 万 个 ， 这 体现 了 
他 们 一 直 坚 持 不 懈 的 目标 : 测量 一 切 ， 并 且 让 工程 师 轻松 地 测量 一 切 。 


正如 Etsy 的 工程 师 Ian Malpass 所 说 :“ 如 果 Etsy 的 工程 团队 有 宗教 信仰 ， 那 肯定 是 图 形 
( Graphs ) 教派 的 。 我 们 会 跟踪 任何 变化 ， 有 了 时候 在 事物 还 没有 变化 时 就 开始 绘制 一 个 图 表 ， 万 
一 它 变 化 起 来 了 呢 …… 跟踪 一 切 是 快速 行动 的 关键 ,但 能 毫 不 费力 地 跟踪 一 切 是 唯一 的 途 
径 …… 我 们 让 工程 师 能 够 立即 获取 所 需 的 信息 ， 而 不 必 把 时 间 消 耗 在 复杂 的 配置 变更 或 管理 流 





























































































































《2015 年 DevOps 现状 报告 》 的 调查 结果 显示 : 高 绩效 组 织 解决 生产 故障 的 速度 是 平均 水 平 
的 168 倍 ， 中 等 绩效 组 织 的 平均 修复 时 间 (MTTR ) 以 分 钟 为 单位 ， 而 低 绩 效 者 的 MTTR 则 以 天 
为 单位 。 在 运 维 中 能 帮助 缩短 MTTR 的 两 项 技术 实践 ， 是 版 本 控制 和 在 生产 环境 中 部 署 更 加 主 
动 的 监控 系统 。( 2014 年 的 相关 信息 见 图 14-1。 ) 


正如 Etsy 所 做 的 那样 ， 本 章 的 目标 是 通过 建立 全 面 的 监控 系统 ， 确 保 服务 在 生产 环境 中 正常 
运行 。 在 出 现 问题 时 ， 能 快速 地 定位 ， 并 做 出 正确 的 决策 解决 问题 ， 而 且 最 好 是 早 在 客户 受 
到 影响 之 前 就 解决 。 此 外 ， 监 控 让 我 们 能 够 汇集 对 现实 最 好 的 理解 ， 并 在 理解 不 正确 时 及 时 
发 现 。 
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2014 年 平均 修复 时 间 


<1 小 时 以 内 
1 小 时 ~ 1 天 
1 天 ~ 1 有 周 


1 周 ~ 1 个 月 








6 个 月 以 上 


高 中 低 





图 14-1 高 、 中 、 低 绩效 组 织 的 故障 解决 时 间 ( 另 见 彩 插 
(来 源 : Puppet Labs 的 《2014 年 DevOps 现状 报告 》) 


Nt 





14.1 建设 集中 式 监控 架构 


运 维 监 控 和 日 志 管理 绝对 不 是 新 鲜 事 物 , 多 年 以 来 运 维 工程 师 已 使 用 和 定制 监控 框架 ( 例如， 
HP OpenView、IBM Tivoli 和 BMC Patrol/BladeLogic ) 来 确保 生产 系统 的 正常 运行 。 监 控 数据 通 
常 使 用 在 服务 器 端 运行 的 代理 或 通过 无 代理 监控 (如 SNMP Trap 或 基于 轮 询 的 监控 ) 方式 来 采 
集 。 前 端 通常 会 使 用 图 形 用 户 界 面 展示 ， 而 后 端 经 常 使 用 诸如 Crystal Reports 等 工具 来 补充 。 


类 似 地, 开发 具备 有 效 的 日 志 记录 功能 、 便 于 监控 其 运行 效果 的 应 用 程序 ,这 种 做 法 也 并 不 
新 鲜 一 一 对 于 几乎 所 有 编程 语言 ， 都 有 各 种 成 熟 的 日 志 程序 库 。 


然而 ， 儿 十 年 来 ,我 们 始终 止步 于 信息 孤岛 ,开发 人 员 只 创建 他 们 感 兴趣 的 日 志 事 件 ， 而 运 
维 人 员 只 监视 运行 环境 是 否 正 常 运行 。 这 导致 在 意外 事件 发 生 时 , 没 人 能 够 判定 为 什么 整个 系统 
没有 按照 设计 运行 , 或 者 为 何 特定 组 件 发 生 了 错误 , 这 都 严重 地 阻碍 了 我 们 将 系统 恢复 到 正常 的 
工作 状态 。 


为 了 观察 到 发 生 的 所 有 问题 , 我 们 必须 重新 设计 和 开发 应 用 系统 和 运行 环境 , 使 它们 能 够 产 
生 足 够 的 监控 信息 , 这 样 才 能 够 将 两 者 作为 一 个 整体 来 理解 系统 是 如 何 运 行 的 。 当 应 用 程序 栈 的 





















































由 












































128 第 14 章 建立 能 发 现 并 解决 问题 的 膛 测 系统 








每 一 层 都 处 在 监控 和 日 志 记 录 中 时 ,我 们 才 可 以 使 用 其 他 的 重要 功能 , 如 绘制 和 可 视 化 监控 指标 、 
异常 事件 探测 、 主 动 报警 和 升级 等 。 


在 The 4rt of Monitoring 一 书 中 ，James Turnbull 描述 了 一 种 现代 的 监测 体系 架构 ， 它 由 大 型 
互联 网 公司 ( 例如 谷歌 、 亚 马 了 还、Facebook ) 的 运 维 工程 师 开 发 和 使 用 。 该 架构 通常 是 由 很 多 开 
源 工 具 构 成 的 ， 例 如 Nagios 和 Zenoss， 这 些 工 具 定制 和 部 署 的 规模 ， 用 当时 同类 的 商业 软件 是 
很 难 实现 的 。 该 体系 架构 具有 以 下 组 成 部 分 。 


口 在 业务 逻辑 、 应 用 程序 和 环境 层 收 集 数 据 : 在 每 一 层 中 ， 建 立 以 事件 、 日 志和 指标 为 对 
象 的 监控 。 日 志 可 以 在 所 有 服务 器 上 使 用 特定 文件 ( 如 /var/log/httpd-error.log ) 来 存储 ， 
但 是 最 好 将 所 有 日 志 发 送 到 公共 日 志 服 务 中 ， 这 样 更 利于 集中 、 轮 换 和 清除 。 大 多 数 操 
作 系 统 都 提供 了 这 个 功能 ， 如 Linux 的 syslog、Windows 的 事件 日 志 等 。 此 外 ,在 应 用 程 
序 栈 的 所 有 层次 中 收集 指标 ， 能 更 好 地 了 解 系统 的 活动 状态 。 在 操作 系统 级 别 ， 可 以 使 
用 collectd、Ganglia 等 工具 采集 状态 指标 ， 如 CPU、 内存、 磁盘 或 网 络 的 使 用 率 等 。 使 
用 其 他 工具 来 采集 性 能 指标 ， 这 些 工具 包括 AppDynamics 、New Relic 和 Pingdom 等 。 

口 负责 存储 和 转发 事件 和 指标 的 事件 路 由 器 : ”此 功能 支持 监控 可 视 化 、 趋 势 分 析 、 告 警 、 

异常 检测 等 。 通 过 采集 、 存 储 和 聚合 所 有 监控 信息 ， 能 实现 更 深入 的 分 析 和 健康 检查 。 

这 里 也 是 存储 与 服务 ( 和 它们 支持 的 应 用 程序 与 环境 ) 有 关 的 配置 信息 的 地 方 ， 可 以 实 

现 基于 阔 值 的 告警 和 健康 检查 。?” 


将 日 志 集 中 后 ,就 可 以 在 事件 路 由 器 中 对 事件 计数 来 转换 成 度量 指标 。 例如 ,可 以 对 一 个 日 
志 事 件 (如 “ 子 进程 14024 退出 信号 为 段 错误 ” ) 计数 ， 并 对 它 进行 统计 ， 作 为 整个 生产 环境 基 
础 架构 的 一 个 段 错误 的 指标 。 


通过 将 日 志 转 换 为 指标 ， 就 可 以 执行 统计 操作 ， 比 如 使 用 异常 检测 ,在 问题 周期 的 早期 发 现 
异常 值 和 方差 。 例如， 如 果 上 一 周 里 一 共 发 生 过 10 次 “ 段 错 误 " ， 而 在 最 近 的 一 小 时 里 却 发 生 了 
几 王 次 ， 就 可 以 对 其 配置 一 个 告警 通知 ， 提 示 要 做 进一步 调查 。 


除了 要 对 生产 服务 和 环境 进行 监控 采集 以 外 ,在 发 生 重大 事件 时 ， 还 必须 从 部 署 流水 线 中 
采集 数据 。 例 如 ， 自 动 化 测试 是 否 通 过 ， 以 及 什么 时 候 在 环境 中 执行 了 部 署 。 我 们 还 要 采集 构 
建 执行 和 测试 所 消耗 的 时 间 长 短 。 这 样 就 可 以 发 现 一 些 预示 潜在 问题 的 情况 。 例 如 ， 如 果 性 能 
测试 或 构建 花费 的 时 间 是 正常 情况 的 两 倍 ， 那 么 在 进入 生产 环境 之 前 ， 我 们 就 能 发 现 这 个 错误 
并 修复 它 。 


此 外 ,还 要 保证 能 方便 地 在 遥测 基础 设施 中 输入 和 检索 信息 。 最 好 全 部 通过 自助 服务 的 API 
来 实现 ， 而 不 需要 通过 开工 单 的 方式 请 求 获取 某 个 报告 。 
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Q@ 示例 工具 包括 Sensu、Nagios、Zappix、LogsStash、Splunk、Sumo Logic、Datadog 和 Riemann。 


14.2 ”建立 生产 环境 的 应 用 程序 日 志 逐 测 129 








事件 路 由 器 mb 


长 
下 


事件 、 日 志 、 


监控 框架 


图 14-2 ”监控 框架 〈 另 见 彩 搬 ) 
(来 源 : Turmbull 的 The 4rt of Monitoring，Kindle 版 , 第 2 章 ) 
理想 情况 下 , 我 们 所 建立 的 遥测 会 确切 地 告诉 我 们 感 兴趣 的 事情 发 生 在 什么 时 候 、 发 生 在 哪 
里 、 情 况 怎 么 样 。 监 控 数 据 还 要 适用 于 手动 和 自动 分 析 ， 即 使 手 里 没有 生成 日 志 的 应 用 ,也 应 该 
能 够 分 析 。 正 如 Adrian Cockcroft 指出 的 那样 :“ 监 控 是 如 此 重要 ， 所 以 监控 系统 需要 比 被 监控 的 
系统 更 具 可 用 性 和 可 扩展 性 。” 


从 此 , 术语 遥测 可 以 和 度量 互 换 使 用 , 它 涵盖 了 应 用 程序 栈 的 各 层级 服务 所 产生 的 事件 日 志 
和 度量 指标 ， 也 包括 来 自 所 有 生产 环境 、 预 生产 环境 和 部 署 流水 线 的 事件 日 志 记录 和 度量 指标 。 
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有 了 集中 的 遥测 基础 架构 ， 我 们 必须 确保 对 所 有 正在 构建 和 运 维 的 应 用 都 建立 充分 的 遥测 。 
要 实现 这 一 点 , 开发 和 运 维 工 程 师 必 须 把 建设 生产 遥测 作为 日 常 工作 的 一 部 分 , 不 仅仅 是 对 新 服 
务 ， 对 已 有 的 服务 也 要 建立 充分 的 遥测 。 


CSG 首席 架构 师 兼 开发 副 总 裁 斯 Scott Prugh 说 :“NASA 每 次 发 射 火 箭 时 ， 都 用 数 百 万 的 自 
动 传感器 来 报告 这 一 宝贵 资产 每 个 组 成 部 分 的 状态 。 然 而 ,我 们 通常 不 会 对 软件 做 同样 的 事 。 我 
们 发 现 ， 建 设 应 用 和 基础 设施 的 遥测 是 投资 回报 最 高 的 事情 之 一 。2014 年 ， 我 们 每 天 产生 了 10 
亿 多 个 遥测 事件 ， 监 控 着 10 万 多 行 的 代码 。 
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在 我 们 构建 和 运 维 的 应 用 程序 中 ， 应 该 监测 每 个 功能 。 如 果 某 个 功能 非常 重要 ,需要 工程 师 
实现 , 那么 产生 足够 的 遥测 自然 也 非常 重要 ， 这 样 才能 确保 它 按照 设计 运行 ,并 且 产 出 了 预期 的 
成 果 。" 


价值 流 中 的 所 有 成 员 都 将 以 各 种 方式 使 用 遥测 。 例 如 , 开发 人 员 可 以 在 应 用 程序 中 临时 创建 
更 多 的 遥测 ,从 而 更 好 地 在 他 们 的 工作 站 上 诊断 问题 ， 而 运 维 工程 师 可 以 使 用 遥测 来 诊断 生产 问 
题 。 此 外 ,信息 安全 和 审计 师 可 以 通过 遥测 确认 系统 所 需 控 制 的 有 效 性 ,产品 经 理 可 以 用 它们 来 
跟踪 业务 成 果 、 功 能 利用 程度 和 转化 率 。 


为 了 支持 以 上 应 用 模式 ， 日 志 还 要 具有 不 同 的 级 别 ， 其 中 的 一 些 可 能 也 会 触发 告警 ， 举 例 
如 下 。 


口 调试 级 别 : 此 级 别 的 信息 是 相关 应 用 程序 中 发 生 的 所 有 事件 ， 最 常用 于 调试 的 时 候 。 通 

常 ， 调 试 日 志 在 生产 中 是 禁用 的 ， 但 在 故障 诊断 期 间 要 暂时 启用 。 

口 信息 级 别 : 此 级 别 的 信息 包括 用 户 触发 的 或 系统 特定 的 操作 ( 例如 “开始 信用 卡 交易 ”)。 

口 警告 级 别 : 此 级 别 的 信息 告诉 我 们 可 能 的 出 错 情况 〈 例 如 ， 调 用 数据 库 花 费 的 时 间 超 过 
某 个 特定 时 长 ) 可 能 会 因此 而 触发 报警 和 故障 诊断 过 程 ， 而 其 他 日 志 消息 会 有 助 于 更 好 
地 理解 事件 的 原因 。 

口 错误 级 别 : 此 级 别 的 信息 侧重 于 错误 状况 ( 例如 ，API 调 用 失败 ， 内 部 出 错 )。 

口 致命 级 别 : 此 级 别 的 信息 告诉 我 们 何 时 发 生 了 中 断 情 况 〈 例如， 网 络 守护 进程 无 法 绑 定 

网 络 套 接 字 )。 


选择 正确 的 日 志 记 录 级 别 很 重要 。Dan North 是 一 位 前 ThoughtWorks 顾问 ， 他 曾经 参与 了 一 
些 项 目 , 并 在 这 些 项 目 中 形成 了 持续 交付 理念 。 他 说 :“ 在 确定 一 条 消息 应 该 是 “错误 ” 还 是 “ 警 
告 " 时 , 设想 一 下 在 凌晨 4 点 被 叫 起 来 处 理 “ 错 误 ” 吧 。 打印 机 报告 碳 粉 不 足 不 是 “错误 ”级 别 。” 


为 了 帮助 确保 拥有 与 服务 可 靠 性 和 安全 操作 相关 的 信息 , 我 们 应 该 保证 所 有 潜在 的 重大 应 用 
事件 都 生成 日 志 记 录 条 上 日 ， 包 括 高 德 纳 公 司 GTP 安全 和 风险 管理 小 组 的 研究 副 总 裁 Anton A. 
Chuvakin 编写 的 以 下 清单 : 


口 认证 /授权 的 结果 ( 包括 退出 ); 

口 系统 和 数据 的 访问 ; 

口 系统 和 应 用 程序 的 变更 ( 特别 是 特权 变更 ); 
口 数据 的 变更 ， 例 如 增加 、 修 改 或 删除 数据 ; 
口 无 效 输入 《〈 可 能 的 恶意 注入、 威胁 等 ) 

















































































































































































































@ 各 种 应 用 程序 日 志 类 库 可 以 帮助 开发 人 员 轻 松 地 建立 有 效 的 遥测 。 我 们 选择 的 日 志 类 库 应 该 可 以 将 所 有 的 应 用 程 
序 日 志 都 发 送 到 集中 日 志 记录 基础 架构 里 。 集 中 日 志 架 构 是 我 们 在 上 一 节 里 提出 的 。 比 较 流 行 的 类 库 包括 : 用 于 
Java 的 rrd4j 和 log4j， 以 及 用 于 Ruby 的 log4r 和 ruby-cabin。 
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口 资源 ( 内 存 、 磁 盘 、 中 央 处 理 器 、 带 宽 或 其 他 任何 具有 硬 / 软 限制 的 资源 ); 
口 健康 度 和 可 用 性 ; 

口 启动 和 关闭 ; 

口 故障 和 错误 ; 

口 断路 带 跳 疗 ; 

口 延迟 ; 

口 备份 成 功 /失败 。 


为 了 更 容易 地 解释 和 给 出 所 有 日 志 条 目的 意义 ，( 理想 情况 下 ) 我 们 应 该 对 日 志 记 录 进 行 分 
级 和 分 类 ， 比 如 对 非 功 能 属性 ( 如 性 和 g、 安 全 性 ) 和 功能 属性 〈 如 搜索 、 排 行 )。 

















14.3 ”使 用 遥测 指导 问题 的 解决 


如 本 章 开 头 所 述 , 高 绩效 者 在 解决 问题 方面 是 训练 有 素 的 , 这 与 依靠 道听途说 的 常见 做 法 形 
成 鲜明 对 比 , 后 者 的 平均 清白 证 明 时 间 ( 即 花 多 长 时 间 说 服 其 他 人 , 不 是 我 们 造成 了 中 断 ) 指标 
是 非常 粳 糕 的 。 

如 果 会 针对 故障 进行 问 责 , 那么 各 个 团队 可 能 都 不 会 记录 变更 , 也 不 会 让 所 有 人 看 到 遥测 数 
据 ， 从 而 避免 遭 到 指责 。 


由 于 公用 遥测 系统 的 缺 位 而 造成 的 其 他 负面 结果 还 包括 : 高 度 紧张 的 政治 气氛 、 推 芭 责 任 ， 
更 糟糕 的 是 , 没有 人 关注 事故 是 如 何 发 生 的 ,以 及 如 何 防止 这 些 错 误 复 发 ， 进 而 无 法 从 错误 中 系 
统 地 学 习 并 形成 知识 库 。” 


相反 , 遥测 技术 赋予 了 我 们 一 种 科学 的 方法 ,让 我 们 能 够 对 具体 问题 的 原因 和 解决 方案 作出 
假设 。 在 解决 问题 的 过 程 中 ,我 们 可 以 回答 以 下 问题 。 


口 监控 系统 中 有 什么 证 据 表明 了 问题 实际 上 正在 发 生 ? 

口 在 应 用 程序 和 环境 中 ， 导 致 问题 的 可 能 的 相关 事件 和 变更 是 什么 ? 
口 可 以 做 出 什么 假设 ， 来 证 实 提出 的 原因 和 结果 之 间 的 联系 ? 

口 如 何 验证 哪些 假设 是 正确 的 ， 能 成 功 地 解决 问题 ? 


实事 求 是 地 解决 问题 ， 其 价值 不 仅 在 于 能 显著 改善 MTTR ( 和 客户 体验 )， 而 且 还 强化 了 一 
项 认识 一 一 开发 和 运 维 之 间 是 双赢 的 关系 。 
































































































































(QD 2004 年 ，Kevin Behr、Gene Kim 和 George Spafford 将 这 个 现象 描述 为 缺乏 “因果 关系 文化 "， 他 们 指出 高 绩效 组 
织 意 识 到 80% 的 中 断 是 由 变更 引起 的 ， 而 80% 的 MTTR 耗费 在 了 分 析 到 底 什 么 发 生 了 变更 上 。 
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14.4 将 建立 生产 遥测 融入 日 常 工作 


为 了 让 所 有 人 都 能 在 日 常 工作 中 发 现 并 解决 问题 , 我 们 需要 让 他 们 在 日 常 工作 中 可 以 轻松 地 
创建 、 展 示 和 分 析 度 量 指标 。 因 此 ， 必 须 建立 必要 的 基础 设施 和 库 ， 让 任何 开发 或 运 维 人 员 都 能 
很 容易 地 针对 任何 功能 创建 遥测 。 理 想 情况 下 , 创建 一 个 新 的 指标 ,通过 仪表 板 显 示 出 来 ， 让 价 
值 流 中 的 所 有 人 都 可 以 看 到 它 ， 应 该 像 编 写 一 行 代码 那样 简单 。 


这 个 理念 指导 开发 了 使 用 最 广泛 的 度量 库 之 一 一 一 StatsD, 它 由 Etsy 创建 并 开源 。 正 如 John 
Allspaw 所 描述 的 :“StatsD 的 设计 目的 是 为 了 防止 任何 开发 人 员 说 “测试 代码 太 麻 烦 了 ” ， 现 在 
他 们 用 一 行 代码 就 可 以 完成 。 让 开发 人 员 认 为 添加 生产 遥测 并 不 像 更 改 数据 库 模 式 那 么 难 , 这 对 
我 们 很 重要 。” 

StatsD 可 以 用 一 行 代码 (Ruby、Perl、Python 、Java 和 其 他 语言 ) 产生 计时 器 和 计数 器， 经 
常 结合 使 用 Graphite 或 Grafana 将 度量 数据 呈现 在 图 形 和 仪表 板 上 。 


图 14-3 显示 了 用 一 行 代码 创建 的 用 户 登 录 事件 (在 这 个 例子 中 ,， 那 一 行 PHP 代码 是 : 
statsD::increment ("login.successes") )。 图 中 显示 了 每 分 钟 登录 成 功 和 失败 的 次 数 ， 
上 的 垂直 竖 线 表示 一 次 生产 部 署 。 
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图 14-3 在 Etsy 使 用 StatsD 和 Graphite 展示 的 用 一 行 代 码 生 成 的 监控 ( 另 见 彩 插 ) 


(来 源 ，Ian Malpass 的 文章 “Measure Anything, Measure Everything”) 


生产 环境 发 生变 更 时 , 会 更 新 这 个 监控 图 ， 因 为 我 们 都 知道 ,大 部 分 生产 环境 问题 都 是 由 变 
更 引起 的 ， 包 括 代 码 部 署 。 这 样 ， 就 可 以 在 维持 高 变更 率 的 同时 ， 维 持 一 个 安全 的 工作 系统 。 


像 StatsD 这 样 , 允许 开发 人 员 新 建 度量 指标 , 同时 还 能 够 轻松 地 聚合 和 分 析 的 工具 还 有 JMX 























14.$ ”建立 自助 访问 的 适 测 和 信息 辐射 器 133 

















和 codahale metrics。 还 有 其 他 工具 也 能 够 为 了 解决 问题 而 建立 宝贵 的 度量 指标 ,包括 New Relic、 
AppDynamics 和 Dynatrace。munin 和 collectd 等 工具 可 用 于 创建 类 似 的 功能 。?” 


通过 将 创建 生产 环境 度量 指标 作为 日 常 工 作 的 一 部 分 ， 不 但 可 以 及 时 地 捕获 问题 ， 而 且 还 
可 以 在 设计 和 运 维 过 程 中 不 断 暴 圳 问题， 从 而 能 跟踪 越 来 越 多 的 指标 ， 就 像 Etsy 的 案例 研究 中 
那样 。 


14.5 ”建立 自助 访问 的 遥测 和 信息 辐射 器 


在 之 前 的 章节 中 ， 开 发 和 运 维 人 员 能 够 把 创建 和 改进 生产 度量 指标 作为 日 常 工作 的 一 部 分 。 
本 闻 的 目标 是 将 监控 信息 辐射 到 组 织 的 其 他 部 门 , 确保 任何 人 想 要 了 解 任何 当前 运行 服务 的 状态 
时 ,都 可 以 方便 地 获取 到 所 需要 的 信息 ,而 不 需要 生产 系统 的 访问 权限 或 特权 登录 账号 , 也 不 用 
开 一 个 工 单 ， 之 后 等 待 数 天 ， 由 专人 为 他 们 配置 信息 图 表 。 


通过 使 监控 信息 可 以 快速 、 方 便 地 获取 到 , 并且 把 数据 完全 集中 化 处 理 , 价值 流 中 的 所 有 人 
都 可 以 对 现状 有 所 了 解 。 这 通常 意味 着 将 生产 度量 指标 显示 到 一 个 由 中 央 服 务 带 ( 比如 Graphite ) 
或 上 一 节 中 提 到 的 任何 其 他 技术 实时 生成 的 网 页 上 。 


我 们 希望 生产 监控 指标 具有 高 度 的 可 见 性 , 这 意味 着 要 将 其 放置 在 开发 和 运 维 人 员工 作 区 域 
的 中 心 ， 从 而 使 所 有 感 兴趣 的 人 都 能 看 到 服务 的 现状 。 这 至 少 要 包括 价值 流 中 的 每 一 个 人 ， 比 如 
开发 、 运 维 、 产 品 管理 和 信息 安全 。 


这 通常 称 为 信息 辐射 器 (information radiator ), 它 是 由 敏捷 联盟 定义 的 :“ 这 个 通用 术语 指 的 
是 , 团队 放置 在 一 个 非常 显眼 位 置 上 的 手写 、 绘 制 、 印 刷 或 电子 信息 展示 ,让 所 有 团队 成 员 以 及 
路 过 的 人 都 可 以 快速 浏览 最 新 信息 : 自动 化 测试 次 数 、 速 率 、 事 故 报告 、 持 续集 成 状态 等 。 这 个 
想法 起 源 于 丰田 生产 系统 。” 


通过 将 信息 辐射 器 放置 在 非常 显眼 的 地 方 , 我 们 在 团队 成 员 中 传播 着 责任 感 , 同时 也 积极 地 
展示 出 以 下 价值 观 : 
口 团队 对 观察 者 ( 客户 、 利 益 相 关 者 等 ) 毫 无 隐藏 ; 
口 团队 对 自己 无 所 隐藏 ， 他 们 承认 并 直面 问题 。 

现在 , 我 们 可 以 将 基础 架构 生成 的 生产 环境 遥测 信息 辐射 到 整个 组 织 , 还 可 以 将 此 信息 传播 
给 内 部 客户 ,其 至 外 部 客户 。 例 如 ,创建 可 以 公开 浏览 的 服务 状态 页 面 , 方便 客户 了 解 他 们 所 依 
赖 的 服务 的 状态 。 

虽然 提供 这 种 透明 度 可 能 会 有 一 些 阻力 ， 但 Ernest Mueller 描述 了 这 样 做 的 价值 : 













































































































































































Qa 其 他 监控 、 聚 合 和 采集 工具 包括 Splunk、Zabbix、Sumo Logic、DataDog, 以 及 Nagios、Cacti、Sensu、RRDTool、 
Netflix Atlas 、Riemann 等 。 分 析 师 经 常 将 这 些 广泛 的 工具 归 为 “应 用 性 能 监视 器 ”类 型 。 
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我 在 组 织 中 所 采取 的 第 一 个 行动 , 是 用 信息 辐射 器 来 沟通 问题 ,并 详尽 地 显示 正在 
进行 的 变更 一 通常 特别 受 业 务 部 门 的 欢迎 ， 因 为 以 前 他 们 都 被 遗忘 了 。 对 于 必须 共同 
奋斗 以 向 客户 提供 服务 的 开发 和 运 维 团 队 来 说 ， 他 们 需要 持续 的 沟通 、 通 知 和 反馈 。 


我 们 甚至 能 进一步 提高 这 种 透明 度 , 将 这 些 信息 传播 给 外 部 客户 , 而 不 是 企图 对 客户 保密 相 
关 的 问题 。 这 表明 了 我 们 对 透明 度 的 重视 ， 有 助 于 建立 和 赢得 客户 信任 ”( 见 附录 10 )。 














* 案例 研究 * 
Linkedln 创建 自助 服务 指标 (2011) 


如 第 三 部 分 所 述 ，LinkedIn 创建 于 2003 年 ， 旨 在 帮助 用 户 “ 通 过 您 的 网 络 获得 更 
好 的 工作 机 会 ”。 到 2015 年 11 月 ，LinkedIn 的 会 员 数 超过 了 3.5 亿 ， 每 秒 产 生 千 上 万 次 
请 求 ，LinkedIn 的 后 端 系统 每 秒 进行 数 百 万 次 查询 。 


LinkedIn 的 工程 总 监 Prachi Gupta 在 2011 年 描述 了 对 生产 环境 适 测 的 重要 性 :“ 在 
LinkedIn， 我 们 强调 保障 网 站 的 正常 运行 ， 让 顾客 随时 都 可 以 访问 到 网 站 完整 的 功能 。 
为 了 履行 这 一 承诺 ， 我 们 必须 及 时 地 发 现 故障 和 瓶颈 ， 并 迅速 做 出 响应 。 因 此 ， 我 们 使 
用 时 间 序 列 图 表 对 站 点 进行 监控 ， 以 便 在 几 分 钟 内 识别 和 响应 事件 。 这 种 监控 技术 对 工 
程 师 们 来 说 是 极 好 的 工具 。 它 让 我 们 能 够 快速 行动 ， 并 争取 到 更 多 的 时 间 来 识别 、 分 类 
和 修复 问题 。 


然而 在 2010 年 ， 尽 管 产 生 的 适 测 数据 数量 巨大 ， 但 工程 师 们 访问 这 些 数据 还 是 很 
困难 ， 更 不 用 说 分 析 数 据 了 。 因 此 ，Eric Wong 在 LinkedIn 的 暑期 实习 生 项 目 开始 了 ， 
该 项 目 最 后 转化 为 生产 环境 的 逐 测 计划 ， 进 而 创造 了 InGraphs。 


Eric Wong 写 道 :“ 要 获得 所 有 运行 着 菜 个 服务 的 主机 的 CPU 使 用 率 这 样 简单 的 信 
息 ， 你 只 需要 填写 一 份 表单 ，30 分 钟 后 即 可 得 到 所 需 的 报表 。” 


当时 ，LinkedIn 在 使 用 Zenoss 采集 指标 ， 但 正如 Eric Wong 所 说 的 :“ 要 从 Zenoss 
里 获取 所 需要 的 数据 ， 不 得 不 在 缓慢 的 Web 界面 进行 挖 握 ， 所 以 我 编写 了 一 些 Python 
脚本 来 简化 这 个 过 程 。 虽然 还 是 要 通过 手动 的 方式 配置 采集 指标 , 但 可 以 减少 在 Zenoss 
界面 上 操作 的 时 间 。” 


整个 夏天 ，Eric Wong 不 断 地 为 InGraphs 添加 功能 ， 以 帮助 工程 师 准确 地 看 到 想 看 
的 内 容 , 还 提高 了 在 多 个 数据 集中 进行 计算 的 能 力 , 而 且 能 够 通过 查看 每 周 趋势 来 进行 
历史 性 能 对 比 ， 甚 至 能 够 自 定义 仪表 板 ， 以 便 精确 地 选择 在 每 个 页 面 上 要 显示 的 指标 。 











四 创建 一 个 简单 的 监控 仪表 板 ， 应 该 是 构建 任何 新 产品 或 服务 的 一 部 分 一 “利用 自动 化 测试 来 确保 服务 和 仪表 板 可 
以 正常 工作 ， 同 时 帮助 客户 和 我 们 安全 地 部 署 代码 。 
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Prachi Gupta 描述 了 向 InGraphs 添加 功能 的 成 果 ， 以 及 这 些 能 力 的 价值 。 他 写 道 : 
“我 们 监控 系统 的 有 效 性 立刻 就 凸显 出 来 了 。 当 时 InGraphs 监控 到 了 一 个 重要 的 Web 邮 


件 系 统 的 性 
这 个 问题 1” 


能 呈 下 降 趋 势 。 当 我 们 联系 相关 运 维 人 员 的 时 候 , 他 们 才 意 识 到 系统 中 存在 


这 个 项 目 开 始 只 是 一 个 署 期 实习 生 项 目 ,现在 是 LinkedIn 运 维系 统 中 可 视 化 做 得 最 
好 的 系统 之 一 。InGraphs 取得 了 巨大 成 功 , 在 工程 师 的 办 公 区 里 非常 突出 地 展示 着 实时 
监控 图 表 ， 让 人 完全 无 法 忽视 它们 。 


14.6 ”发 现 和 填补 遥测 的 盲区 


现在 我 们 已 经 创建 了 必要 的 基础 架构 , 能 够 在 整个 应 用 程序 栈 快速 建立 生产 环境 遥测 , 并 把 
再 射 。 


结果 向 整个 组 织 
































在 这 个 步骤 中 , 我 们 将 识别 遥测 里 的 任何 盲区 , 这 些 盲 区 正 阻 碍 着 我 们 快速 地 探测 和 解决 故 
障 一 一 如 果 目 前 的 开发 和 运 维 团队 在 遥测 方面 很 弱 (其 至 没有 ) 的 话 ， 这 尤其 有 意义 。 我们 以 后 
将 会 使 用 这 些 数据 更 好 地 预测 问题 ， 并 让 每 个 人 都 能 收集 到 所 需 的 信息 ， 从 而 做 出 更 好 的 决策 ， 
以 实现 组 织 的 业务 目标 。 


为 此 , 我 们 需要 在 所 有 环境 中 , 在 应 用 程序 栈 的 每 个 层级 中 , 以 及 支持 它们 的 部 署 流 水 线 中 ， 











结果 等 。 


晶 * :四 
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应 用 程序 























建立 充分 而 完整 的 遥测 。 我 们 需要 以 下 层级 的 度量 指标 。 
口 业务 级 别 : 示例 包括 交易 订单 的 数量 、 产 生 的 营业 额 、 用 户 注 册 数 、 流 失 率 、AB 测试 的 








级 别 : 示例 包括 事务 处 理 时 间 、 用 户 响应 时 间 、 应 用 程序 故障 等 。 

基础 架构 级 别 〈 如 数据 库 、 操 作 系统 、 网 络 、 存 储 ): 示例 包括 Web 服务 器 吞 叶 量 、CPU 
负载 、 磁 盘 使 用 率 等 。 

客户 端 软件 级 别 〈 如 客户 端 浏览 器 上 的 JavaScript、 移 动 应 用 程序 ) : 示例 包括 应 用 程序 
的 出 错 和 崩溃 、 用 户 端的 事务 处 理 时 间 等 。 

部 署 流水 线 级 别 : 示例 包括 构建 流水 线 状 态 〈 例 如: 各 种 自动 化 测试 套件 的 红色 或 绿色 


























状态 )、 变 更 部 署 前 置 时 间 、 部 署 频率 、 测 试 环 境 上 线 状态 和 环境 状态 。 
通过 利用 遥测 完整 地 歼 盖 以 上 领域 , 我 们 能 够 看 到 服务 依赖 的 所 有 事物 的 健康 状况 , 用 数据 




















和 事实 说 明 问题 ， 而 不 是 听信 传言 、 指 指点 点 、 互 相 责备 。 


此 外 ,通过 监控 所 有 应 用 程序 和 基础 设施 的 故障 ( 例如: 程序 异常 终止 、 应 用 程序 错误 和 异 
常 ， 以 及 服务 器 和 存储 报错 )， 能 够 更 好 地 识别 出 和 信息 安全 有 关 的 事件 。 在 服务 月 演 时 ， 这 种 
遥测 能 更 好 地 给 开发 和 运 维 提供 信息 ， 而 且 这 些 错误 通常 还 能 反映 出 目前 存在 着 安全 漏洞 。 
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通过 尽早 发 现 并 修复 问题 , 我 们 可 以 在 问题 还 小 、 容 易 修复 的 时 候 就 修复 它们 ， 进 而 减少 对 
客户 的 影响 。 此 外 , 在 每 次 生产 故障 之 后 , 我们 应 该 识别 是 否 存在 遥测 盲区 ， 弥 补 它 们 就 能 更 快 
地 发 现 故障 和 恢复 服务 。 更 好 的 做 法 是 , 在 功能 开发 阶段 , 在 同行 评审 的 过 程 中 就 能 识别 出 这 些 
育 区 。 






































14.6.1 应 用 程序 和 业务 度量 指标 


在 应 用 程序 层面 , 我们 的 目标 是 : 不 仅 要 确保 产生 的 遥测 能 够 反映 应 用 程序 的 健康 状况 〈 例 
如 内 存 使 用 、 事 务 计 数 等 )， 还 要 度量 目前 组 织 的 业务 目标 的 实现 情况 〈 例 如 用 户 增 长 数 、 用 户 
登录 次 数 、 用 户 会 话 时 长 、 活 路 用 户 比 例 、 某 些 特 性 的 使 用 频率 ， 等 等 )。 


例如 , 如 果 有 一 个 服务 为 电子 商务 网 站 提供 支持 , 那么 我 们 要 确保 监控 所 有 带 来 成 功 交易 并 
产生 收益 的 用 户 事件 。 然 后 ， 我 们 就 可 以 针对 客户 的 业务 预期 度量 所 有 的 用 户 行为 。 


这 些 度量 指标 根据 领域 的 不 同 、 组 织 目标 的 不 同 而 各 异 。 例 如 ， 对 于 电子 商务 网 站 ,我 们 可 
能 希望 用 户 尽量 多 在 网 站 上 花费 时 间 ; 然而 ， 对 于 搜索 引擎 ， 我 们 可 能 希望 用 户 尽 快 离开 网 站 ， 
因为 会 话 时 间 长 就 证 明了 用 户 很 难 搜 索 到 想 要 的 东西 。 


一 般 来 说 , 业务 指标 将 是 客户 获取 渠道 的 一 部 分 , 它 是 潜在 客户 购买 商品 的 理论 步骤 。 例 如， 
在 电子 商务 网 站 中 ， 可 度量 的 事件 包括 : 用 户 在 线 时 长 、 产 品 链接 点 击 次 数 、 购 物 车 中 的 商品 数 
量 ， 以 及 完成 的 订单 。 


Microsoft Visual Studio Team Services 的 高 级 产品 经 理 Ed Blankenship 表示 :“ 通 常情 况 下 , 功 
能 团队 会 在 获取 渠道 上 定义 目标 , 包括 每 个 客户 在 一 天 中 使 用 该 功能 的 次 数 。 有 时 候 , 在 监控 的 不 
同 阶段 ， 对 用 户 的 非 正 式 称呼 分 别 是 “ 踢 轮 胎 者 ” “活跃 用 户 ” “成 员 用 户 ” 和 “骨灰 级 用 户 ” 等 。 


我 们 的 目标 是 让 所 有 的 业务 指标 都 是 切实 可 行 的 一 一 这 些 最 重要 的 指标 将 有 助 于 产品 的 进 
化 , 并 能 够 进行 实验 和 A/B 测试 。 如果 指标 是 不 可 行 的 ,它们 或 许 就 是 无 价值 的 指标 , 不 能 提供 
有 用 的 信息 一 一 我 们 想 要 存储 这 些 信息 ， 但 可 能 不 会 显示 它们 ， 更 不 用 说 设置 告警 了 。 


理想 情况 下 , 任何 查看 信息 辐射 器 的 人 , 都 能 够 在 预期 的 业务 成 果 的 背景 下 ,理解 所 显示 的 
信息 , 例如 ; 收入 目标 、 用 户 获 取 率 、 转 化 率 等 。 在 功能 定义 和 开发 的 最 初 阶段 ， 我 们 就 应 该 定 
义 所 有 的 度量 指标 , 并 使 之 与 业务 成 果 的 度量 指标 相关 联 , 然后 在 将 功能 部 署 到 生产 环境 中 以 后 ， 
用 其 来 度量 业务 成 果 〈 见 图 14-4 )。 这 样 做 有 助 于 产品 经 理 向 价值 流 中 的 所 有 人 描述 每 个 功能 的 
业务 场景 。 


通过 意识 到 并 展示 出 与 高 水 平 的 业务 规划 和 运 维 相 关 的 时 间 段 ， 可 以 进一步 创建 出 业务 环 
境 。 例 如 , 与 节假日 销售 旺季 相关 联 的 交易 高 峰 期 , 季度 末 的 财务 结算 期 , 或 例 行 的 合 规 性 审计 。 
这 些 信息 可 用 来 提醒 避免 在 可 用 性 至 关 重 要 的 时 候 进行 高 风险 的 变更 , 或 者 避免 在 审计 过 程 中 进 
行 某 些 活动 。 











































































































































































































14.6 发 现 和 填补 未 测 的 盲区 137 








论坛 发 帖 数 
rn 
24 
ee 

0 = > 全 全 全 = 


06:00 06:20 06:40 07:00 07:20 07:40 08:00 08:20 08:40 09:00 09:20 09:40 


图 代码 部 署 加 缺陷 论坛 的 新 帖 数 帮助 论坛 的 新 帖 数 
图 14-4 在 部 署 后 ， 用 户 论坛 中 对 新 功能 感 兴趣 的 用 户 数量 〈 另 见 彩 捅 ) 
(来 源 : Mike Brittain 于 2010 年 12 月 8 日 在 CodeasCraftcom 上 发 表 的 文章 “跟踪 每 一 个 发 布 版 本 ”， 
https://codeascraft.com/2010/12/08/track-every-release/ ) 
通过 传播 客户 使 用 功能 的 情况 , 可 以 快速 地 给 开发 团队 反馈 , 让 他 们 看 到 用 户 是 否 真 的 使 用 
了 这 些 功能 ， 以 及 它们 对 实现 业务 目标 有 多 少 帮 助 。 结 果 , 我 们 强化 了 文化 期 望 ， 即 把 监控 和 
分 析 用 户 的 使 用 情况 也 作为 日 常 工作 的 一 部 分 , 这 样 才 能 更 好 地 理解 我 们 的 工作 对 业务 目标 的 


局 
影响 。 






























































14.6.2 ”基础 架构 度量 指标 


与 为 应 用 程序 度量 指标 所 做 的 类 似 , 对 于 生产 环境 和 非 生产 环境 的 基础 架构 , 我 们 的 目标 是 
确保 建立 全 面 的 遥测 指标 , 以 便 在 任何 环境 中 出 现 问题 时 , 能 够 快速 定位 问题 是 不 是 由 基础 架构 
引起 的 。 此 外 ， 还 必须 能 够 定位 到 究竟 是 基础 架构 的 哪个 组 件 引 发 了 问题 ( 例如， 数据库、 操作 
系统 、 存 储 、 网 络 等 )。 

我 们 希望 尽 可 能 多 地 向 所 有 技术 利益 干系 人 展示 基础 架构 的 监控 信息 , 而 且 在 理想 的 情况 下 
是 按照 服务 或 应 用 程序 的 逻辑 来 组 织 的 。 换 名 话说 ， 当 环境 出 现 问题 时 ,我 们 需要 准确 地 知道 应 
用 程序 和 服务 可 能 会 或 正在 受到 什么 影响 。” 

几 十 年 前 , 在 服务 和 其 依赖 的 生产 环境 基础 架构 之 间 创 建 连接 通常 是 通过 手动 来 操作 的 ( 例 
如 ITILCMDB, 或 在 Nagios 等 报警 工具 中 创建 配置 定义 ),。 现在 , 这 些 连 接 越 来 越 多 地 在 服务 中 




































































D 在 ITIL 的 配置 管理 数据 库 中 有 精确 的 描述 。 

















138 第 14 章 ， 建立 能 发 现 并 解决 问题 的 适 测 系统 








自动 注册 。 随 后 ， 在 生产 环境 中 ， 通 过 Zookeeper、Etcd、Consul 等 工具 ， 可 以 动态 地 发 现 和 使 
用 这 些 服 务 。 


这 些 工 具 使 服务 能 够 进行 自我 注册 ， 同 时 存储 了 其 他 服务 与 之 交互 所 需要 的 信息 (例如 ,IP 
地 址 、 端 口号 、URI )。 这 就 改变 了 ITIL CMDB 里 手动 操作 的 情况 ; 当 服务 由 数 百 〈 或 数 千 甚至 
数 百 万 ) 个 节点 组 成 ， 并 且 每 个 节点 都 是 动态 分 配 IP 地 址 时 ， 这 些 工具 是 绝对 必要 的 。” 


不 管 服务 多 么 简单 或 者 多 么 复杂 ， 将 业务 指标 与 应 用 程序 和 基础 架构 指标 聚合 在 一 起 显示 ， 
会 有 助 于 发 现 故障 。 例 如 , 可 能 会 看 到 新 客户 注册 数 下 降 到 日 平均 值 的 20%, 然后 还 立即 发 现 所 
有 数据 库 查 询 花 费 的 时 间 是 正常 情况 的 5 倍 ， 这 使 我 们 能 够 把 精力 集中 在 解决 问题 上 。 


此 外 , 业务 度量 指标 为 基础 设施 度量 指标 提供 了 相关 性 , 使 开发 和 运 维 能 够 朝 着 共同 的 目标 
更 好 地 协同 工作 。 正 如 Ticketmaster/LiveNation 的 首席 技术 官 Jody Mulkey 所 言 :“ 我 们 不 是 根据 
停机 时 间 来 衡量 运 维 , 更 好 的 做 法 是 根据 停机 所 造成 的 实际 业务 后 果 来 衡量 开发 和 运 维 团队 : 我 
们 应 该 获得 却 没 有 获得 的 业务 收益 是 多 少 。”” 

请 注意 ,除了 要 监控 生产 环境 服务 ,还 需要 在 预 生产 环境 ( 例如 开发 、 测 试 、 模 拟 等 ) 中 监 
探 这 些 服务 。 这 样 能 够 在 投产 前 发 现 并 解决 问题 ， 例 如 ， 发 现 由 于 数据 库 的 表 缺 少 表 索 引 ， 导 致 
数据 库 插入 时 间 的 不 断 增长 。 


































































































14.6.3 ”显示 又 加 的 指标 组 合 

即使 搭建 了 部 署 流 水 线 ， 能够 进行 小 而 频繁 的 生产 环境 变更 ,变更 依旧 会 产生 风险 。 运 维 的 
副作用 不 仅仅 是 宕 机 ， 还 有 严重 的 服务 中 断 和 对 运 维 标准 的 背离 。 

为 了 提高 变更 的 可 视 化 程度 ， 可 以 在 监控 图 形 上 羡 加 显示 所 有 生产 环境 的 部 署 活动 。 例 如 ， 
对 于 处 理 大 量 入 站 事务 的 服务 ,生产 环境 变更 可 能 会 导致 明显 的 下 跌 周期 ,在 此 期 间 , 应 用 的 性 
能 由 于 所 有 高 速 缓存 查询 失效 而 又 降 。 

为 了 更 好 地 理解 和 保持 服务 质量 , 我 们 要 了 解 性 能 何 时 能 恢复 , 并且 如 果 有 必要 ,还 要 实施 
性 能 提升 方案 。 

同样 ,我们 还 想 释 加 其 他 有 意义 的 运 维 活动 ,例如 当 服 务 正在 维护 或 备份 时 ， 有 可 能 需要 在 
某 些 地 方 显示 告警 或 者 暂停 告警 。 



























































Q Consul 可 能 特别 让 人 感 兴趣 ,因为 它 创建 了 一 个 抽象 层 , 可 以 轻松 地 实现 服务 映射 、 监 控 、 锁 定 和 键 值 配 置 存储 ， 
以 及 主机 集群 化 和 故障 检测 。 

@) 这 可 能 是 生产 环境 停机 成 本 或 者 功能 延迟 开发 的 成 本 。 在 产品 开发 术语 中 ， 后 者 被 称 为 延迟 成 本 ， 是 制定 有 效 优 
先 级 决策 的 关键 。 
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14.7 ”小结 


从 Etsy 和 LinkedIn 利用 有 效 的 生产 遥测 取得 运 维 提升 的 案例 中 可 以 看 出 ， 在 问题 发 生 时 就 
能 发 现 问题 是 多 么 地 重要 ,这样 才能 及 时 地 找 出 原因 ,， 并 迅速 补救 。 无 论 是 在 应 用 程序 、 数 据 库 
还 是 生产 环境 中 , 通过 使 服务 的 所 有 组 成 部 分 都 发 送 遥 测 信息 以 便 进 行 分 析 , 可 以 早 在 故障 导致 
灾难 之 前 ， 其 至 是 早 在 客户 注意 到 问题 之 前 ， 就 发 现 并 解决 问题 。 这 样 不 仅 能 使 客户 更 加 满意 ， 
而 且 通 过 减少 救 淡 和 危机 次 数 ， 工 作 压力 也 会 减轻 , 伴 仍 程度 也 会 降低 ， 工 作 也 会 更 加 愉快 、 更 
富有 成 效 。 



























































分 析 遥 测 数据 以 更 好 地 预测 


故障 和 实现 目标 








正如 前 一 章 所 述 ， 我 们 需要 对 应 用 程序 和 基础 架构 进行 充分 的 生产 环境 遥测 ， 以 便 在 问题 
发 生 时 及 时 发 现 并 解决 。 本 章 , 我 们 将 创建 工具 来 识别 隐藏 在 生产 环境 遥测 中 的 差异 和 微弱 的 故 
障 信号 ， 从 而 避免 灾难 性 故障 的 发 生 。 本 章 会 介绍 大 量 统计 技术 ,并 通过 案例 研究 来 讲解 它们 的 
用 途 。 


Netflix 是 全 球 电 影 和 电视 连续 剧 的 流 媒体 供应 商 , 他 们 就 通过 分 析 遥 测 数据 主动 地 发 现 并 解 
决 了 问题 ,避免 了 客户 受到 影响 。2015 年 ，Netflix 从 7500 万 用 户 中 获取 的 收益 为 62 亿美 元 。 他 
们 的 一 个 目标 是 为 世界 各 地 在 线 观 看 视频 的 用 户 提 供 最 佳 的 体验 , 而 这 就 需要 一 个 稳健 的 、 可 伸 
缩 的 、 弹 性 的 交付 基础 架构 .RoyRapoport 描述 了 管理 Netflix 基于 云 的 视频 交付 服务 的 一 个 挑战 : 
“ 牛 群 中 的 牛 在 外 观 和 行为 上 应 该 都 是 一 样 的 ， 哪 头 牛 看 起 来 会 与 众 不 同 呢 ? 或 者 更 具体 地 说 ， 
如 果 我 们 有 一 个 包含 上 千 节 点 的 无 状态 计算 集群 ， 上 面 运行 着 相同 的 软件 ， 承 受 着 近似 的 负载 ， 
那么 我 们 面临 的 挑战 就 是 找 出 与 众 不 同 的 节点 。” 


2012 年 ，Netflix 团队 使 用 的 一 项 统计 技术 是 异常 检测 ， 约 克 大 学 的 Victoria J. Hodge 和 Jim 
Austin 将 其 定义 为 检测 “可 能 导致 性 能 显著 下 降 的 异常 运行 状况 ,诸如 航空 发 动机 旋转 缺陷 或 管 
道 的 热流 问题 ”。 


Rapoport 解释 说 :“Netflix 以 一 种 非常 简单 的 方式 使 用 异常 检测 ， 即 首先 在 计算 集群 节点 总 数 
一 定 的 情况 下 计算 出 “当前 正常 值 '， 然 后 识别 出 与 之 不 符 的 节点 ， 并 将 它们 从 生产 环境 中 移 除 。” 


Rapoport 继续 说 道 :“ 我 们 不 需要 定义 “正常 ”的 行为 是 什么 ， 就 可 以 目 动 地 标记 出 异常 节 
点 。 因 为 我 们 的 设计 是 在 云端 弹性 运行 ， 所 以 不 用 告诉 运 维 人 员 去 做 什么 , 只 需 删 除 出 错 或 行为 
异常 的 计算 节点 ， 然 后 记录 下 来 ， 或 者 通知 相关 的 工程 师 。 

Rapoport 说 ， 通 过 实施 服务 器 异常 检测 的 流程 ,Netflix 已 经 “大 大 地 降低 了 识别 故障 服务 器 


的 成 本 ,更 重要 的 是 还 大 大 地 缩短 了 修复 时 间 , 提高 了 服务 质量 。 利 用 这 些 技术 来 保持 员工 的 理 
智 , 保持 工作 和 生活 的 平衡 , 以 及 保持 服务 质量 , 其 所 带 来 的 益处 再 怎么 强调 都 不 为 过 ”。Netflix 
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的 案例 突显 了 使 用 遥测 在 客户 受到 影响 之 前 就 处 理 问题 的 一 个 具体 做 法 。 


本 章 会 探讨 很 多 统计 和 可 视 化 技术 (包括 异 常 检测 )， 我 们 可 使 用 它们 来 分 析 遥 测 数 据 ， 从 
而 更 好 地 预测 问题 。 这 样 ， 我 们 就 能 够 以 更 快 的 速度 、 更 低 的 成 本 ， 早 在 客户 或 组 织 中 的 任何 人 
受到 影响 之 前 就 解决 问题 。 此外, 我们 还 将 创造 更 多 的 数据 使 用 场景 , 帮助 我 们 做 出 更 好 的 决策 ， 
实现 组 织 的 目标 。 





15.1 用 均值 和 标准 差 识 别 潜在 问题 


分 析 生 产 环境 度量 指标 最 简单 的 一 种 统计 技术 是 计算 均值 ( 或 平均 数 ) 和 标准 差 。 通过 这 种 
方式 ， 我 们 可 以 创建 一 个 过 滤器 ， 用 来 检测 度量 指标 与 正常 值 显 著 不 同 的 情况 ， 甚 至 配置 告警 ， 
以 便 触 发 修复 动作 〈 例 如， 当 数 据 库 查 询 速度 明显 低 于 平均 值 时 , 在 凌晨 2 点 通知 生产 环境 的 值 
班 员 进 行 排查 )。 


当 关 键 的 服务 出 现 问题 时 ,在 凌晨 2 点 叫 醒 值班 员 可 能 是 正确 的 。 然 而 ， 如 果 并 不 需要 对 告 
警 采 取 行 动 ， 或 者 它 本 来 就 是 一 个 误 报 ， 那 么 我 们 就 不 必 在 午夜 去 折磨 值班 员 了 。DevOps 运动 
的 早期 领导 者 John Vincent 指出 :“ 现 在 告警 疲劳 是 我 们 面临 的 最 大 问题 …… 我 们 需要 更 智能 的 
告警 ， 否 则 大 家 都 要 疯 掉 了 。” 


我 们 可 以 通过 提高 信 品 比 、 关 注 差异 值 或 异常 值 ， 建立 更 好 的 告警 。 假设 现在 要 分 析 每 天 未 
经 授权 的 登录 次 数 , 收集 到 的 数据 呈 高 斯 分 布 ( 即 呈 正 态 分 布 或 钟 形 曲 线 分 布 ), 如 图 15-1 所 示 。 
钟 形 曲线 中 间 的 垂直 线 是 均值 ,由 其 他 垂直 线 表示 的 第 一 、 第 二 和 第 三 标准 差分 别 包含 68%、95% 
和 99.7% 的 数据 。 
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图 15-1 是 高 斯 分 布 的 标准 差 (o) 和 均值 (4) ( 另 见 彩 搬 ) 
(来 源 : 维基 百科 的 “ 正 态 分 布 ” 条 目 ，https://en.wikipedia.org/wiki/Normal_distribution ) 
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标准 差 的 常见 用 途 是 ， 定 期 检查 数据 集 的 某 个 度量 ， 如 果 与 均值 有 显著 差异 就 告警 。 例 如 ， 
当 每 天 未 经 授权 的 登录 次 数 比 均值 大 三 个 标准 差 时 就 告警 。 只 要 这 个 数据 集 呈 高 斯 分 布 , 我 们 就 
预计 只 有 0.3% 的 数据 点 会 触发 告警 。 

即使 只 是 一 种 简单 的 统计 分 析 , 它 也 是 有 价值 的 , 因为 再 也 不 必 设置 静态 阔 值 一 一 如 果 跟 踪 
的 是 几 千 或 几 十 万 个 生产 指标 ， 这 样 是 不 可 行 的 。 

在 本 书 的 后 续 内 容 里 , 我 们 将 交换 使 用 术语 遥测 、 度 量 和 数据 集 。 换 名 话说 , 度量 (例如 “页 
面 加载 时 间 ”) 将 映射 到 一 个 数据 集 ( 例如，2 毫秒 、8 毫秒 、11 毫秒 等 )， 统 计 学 家 用 后 者 来 描 
述 一 个 数据 点 矩阵 ， 其 中 每 一 列 代表 对 其 执行 统计 操作 的 一 个 变量 。 
































15.2 ”异常 状态 的 处 理 和 告警 


Tom Limoncelli 是 《 云 系统 管理 ， 大 规模 分 布 式 系统 设计 与 运营 》 的 作者 之 一 ， 也 曾 是 谷歌 
的 站 点 可 靠 性 工程 师 。 他 讲述 了 以 下 关于 监控 的 故事 :“ 当 人 们 问 我 需要 监控 哪些 对 象 时 ， 我 开 
玩笑 说 ,在 理想 的 世界 里 ,我们 会 删除 目前 监控 系统 里 所 有 的 告警 。 然 后 ,在 每 一 个 用 户 业 务 中 
断 以 后 , 我们 会 问 什么 指标 能 预测 这 个 中 断 , 然后 再 把 这 些 指标 加 入 到 监控 系统 中 ,并 根据 需要 
告警 ,再 不 断 重 复 上 面 这 一 过 程 。 这 样 ， 我 们 就 只 会 收 到 预防 中 断 的 告警 ， 而 不 是 在 故障 发 生 以 
后 遭 到 报警 信息 的 用 炸 。 


在 当前 这 个 阶段 , 我 们 将 复制 以 上 实践 成 果 。 其 中 一 个 最 简单 的 方法 是 : 分 析 在 近期 ( 例如 
30 天 内 ) 遇 到 的 最 严重 的 事故 ， 并 建立 一 个 遥测 列表 ， 用 来 更 早 、 更 快 地 检测 和 诊断 问题 ， 以 
及 更 方便 、 更 快捷 地 确认 已 经 实施 了 有 效 的 修复 措施 。 


例如 ， 如 果 NGINX Web 服务 顺 停 止 对 请 求 做 出 响应 ， 我 们 会 查看 主要 指标 ， 它 们 可 能 已 提 
前 警告 我 们 ， 我 们 已 开始 偏离 标准 操作 。 例 如 : 


口 应 用 级 别 一 一 网 页 加 载 时 间 正 在 增加 等 ; 
口 操作 系统 级 别 一 一 服务 器 闲置 内 存 不 足 、 磁 盘 空 间 不 足 等 ; 
口 数据 库 级 别 一 一 数据 库 事务 处 理 时 间 超出 正常 值 等 ; 
口 网 络 级 别 一 一 负载 均衡 器 背后 运行 的 服务 顺 数 量 下 降 等 。 

上 述 所 有 指标 都 是 生产 环境 事故 的 潜在 征兆 。 对 于 每 一 个 这 样 的 指标 ,我 们 将 设置 告 
它们 偏离 均值 足够 多 时 ， 就 发 出 告警 ， 通 知 相 关 人 员 和 采取 纠正 措施 。 

通过 对 所 有 更 弱 的 故障 信号 重复 以 上 过 程 ， 我 们 就 可 以 在 软件 的 生命 周期 中 更 早 地 发 现 问 
题 ， 从 而 减少 影响 客户 的 事件 的 发 生 次 数 。 换 名 话说 ,我 们 不 但 要 主动 地 预防 问题 ， 而 且 要 进行 
更 快速 的 探测 和 修复 。 
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15.3” 非 高 斯 分 布 琐 测 数据 的 问题 


使 用 均值 和 标准 差 来 检测 异常 是 非常 实用 的 。 然 而 ,在 运 维 中 我 们 会 用 到 许多 个 遥测 数据 集 ， 
对 它们 都 使 用 这 些 技 术 ， 并 不 一 定 会 产生 预期 的 结果 。 正 如 Toufic Boubez 博士 所 说 :“ 我 们 不 只 
会 在 凌晨 2 点 接 到 告警 电话 ， 当 监控 的 基础 数据 并 不 呈 高 斯 分 布 的 时 候 ， 我 们 还 会 在 凌晨 2:37、 
4:13 、5:17 接 到 告警 电话 。 


换 而 言 之 ， 当 数据 集 里 的 数据 没有 呈 上 述 的 高 斯 分 布 〈 钟 形 曲 线 ) 时 , 使 用 与 标准 差 相 关 的 
属性 就 不 合适 了 。 例 如 , 我 们 正在 监控 网 站 每 分 钟 的 文件 下 载 量 , 需要 检测 的 是 下 载 量 异常 大 的 
时 段 。 例 如 ， 当 下 载 率 比 均值 大 三 个 标准 差 时 ， 我 们 就 可 能 要 主动 地 增加 更 多 的 带宽 。 

15-2 显示 了 随 着 时 间 推 移 每 分 钟 的 并 发 下 载 量 ， 有 一 个 条 形 栏 覆盖 在 图 形 的 顶部 。 黑 色 
块 表 示 在 那 段 时 间 (有 时 被 称 为 “滑动 窗口 ”) 下 载 量 与 均值 至 少 差 三 个 标准 差 。 和 否则 ， 它 就 是 
灰色 的 。 
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15-2 ”每 分 钟 下 载 量 : 使 用 “三 个 标准 差 ” 规 则 时 的 过 度 告 警 ( 男 见 彩 插 ) 
(来 源 : Toufic Boubez 博士 的 文章 “Simple math for anomaly detection”) 

图 中 展示 出 的 问题 很 明显 : 几乎 在 所 有 的 时 间 里 都 触发 了 告警 。 这 是 因为 几乎 在 任何 时 间 段 
里 ， 都 有 下 载 量 超 过 三 个 标准 差 阔 值 的 情况 出 现 。 

为 了 证 实 这 一 点 ， 当 我 们 绘制 一 个 显示 每 分 钟 下 载 频率 的 直方 图 ( 见 图 15-3 ) 时 ， 可 以 看 到 

它 的 形状 并 不 是 经 典 的 对 称 钟 形 曲线 。 相 反 ,， 分 布 很 明显 倾斜 向 下 ,这 表示 大 多 数 时 间 里 的 每 分 
钟 下 载 量 都 很 低 ， 但 经 常 诡 升 到 高 出 三 个 标准 差 。 
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图 15-3 ”每 分 钟 下 载 量 : 非 高 斯 分 布 的 数据 直方 图 


(来 源 : Toufic Boubez 博士 的 文章 “Simple math for anomaly detection”) 















































大 量 生产 数据 集 都 不 是 高 斯 分 布 的 。Nicole Forsgren 博士 解释 说 :“ 运 维 中 的 很 多 数据 集 呈 
我 们 所 谓 的 “ 卡 方 : 分 布 。 对 这 样 的 数据 使 用 标准 差 ,不 仅 会 导致 告警 过 度 或 告警 不 足 ， 还 会 产 
生 芒 雇 的 结果 。 当 并 发 下 载 量 比 均值 低 三 个 标准 差 时 ， 结 果 会 是 负数 ， 这 显然 是 讲 不 通 的 。” 


















































过 度 告警 导致 运 维 工程 师 在 半夜 频繁 地 被 叫 醒 ， 甚 至 是 在 他 们 也 采取 不 了 恰当 的 应 对 措施 
时 。 告 警 不 足 的 问题 同样 很 大 。 例 如 ,假设 我 们 正在 监控 已 完成 的 交易 数量 ， 由 于 一 个 软件 组 件 
的 故障 ， 导 致 中 午时 已 完成 的 交易 数量 下 降 了 50%。 如 果 此 时 与 均值 的 差异 没 超过 三 个 标准 差 ， 
就 不 会 触发 告警 ， 这 意味 着 客户 会 比 我 们 先 发 现 这 个 问题 ， 而 届时 问题 可 能 更 难 解决 了 。 





















































所 垃 ， 即 便 不 是 高 斯 数据 集 ， 也 可 以 采用 其 他 异常 检测 技术 。 下 面 将 阐述 有 关内 容 。 


* 案例 研究 * 
Netflix 的 自动 扩展 能 力 (2012) 


Netflix 开发 的 另 一 个 提高 服务 质量 的 工具 是 Scryer， 它 解决 了 AAS ( Amazon Auto 
Scaling， 亚 马 示 自动 扩展 ) 的 一 些 不 足 。AAS 会 根据 工作 负载 的 数据 ， 动 态 地 增加 和 
减少 AWS 计算 服务 器 数量 。Scryer 通过 分 析 历 史 使 用 模式 来 预测 客户 的 需求 ， 并 提供 
必要 的 计算 能 力 。 


Scryer 解决 了 AAS 的 三 个 问题 。 第 一 个 问题 是 处 理 需求 急剧 增长 的 情况 -因为 AWS 
实例 的 启动 时 间 可 能 会 长 达 10 ~ 45 分 钟 , 所 以 额外 的 计算 能 力 经 常 由 于 交付 时 间 太 长 ， 
不 能 满足 快速 增长 的 处 理 需求 。 第 二 个 问题 是 ， 在 出 现 服务 中 断 之 后 ， 由 于 客户 需求 快 
速 下 降 ， 导 致 AAS 移 除 了 大 量 的 计算 能 力 ， 结 果 不 能 满足 随 之 而 来 的 需求 。 第 三 个 问 
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题 是 ，AAS 在 调度 计算 能 力 时 ,没有 考虑 当前 的 流量 使 用 模式 。 


Netflix ， 用 了 这 样 一 个 事实 : 其 消费 者 的 浏览 模式 有 着 惊人 的 一 致 性 和 可 预测 性 
尽管 未 呈 高 斯 分 布 。 图 15-4 反映 的 是 在 整个 工作 周 内 每 秒 的 客户 请 求 数 ， 展示 了 从 周 
一 到 周 让 浏览 模式 是 规律 和 一 致 的 。 





每 秒 请 求 数 


时 间 


图 15-4 Netflix 客户 五 天 的 浏览 需求 


(来 源 : Daniel Jacobson 、Danny Yuan 和 Neeraj Joshi 于 2013 年 11 月 5 日 在 Netflix 技术 博客 上 发 表 的 文章 “Scryer: Netflix 的 
预测 性 自动 扩展 引擎 ”，http:/techblog.netflix.com/2013/11/scryer-netflixs-predictive-auto-scaling.html ) 


























Scryer 先 使 用 异常 检测 组 合 抛 出 伪 数 据点 ， 然 后 使 用 诸如 快速 全 里 时 变换 os 
和 线性 回归 等 技术 使 数据 更 加 平滑 ， 同时 保留 在 其 数据 中 重 现 的 合法 流量 峰值 ， 结 结果 
Netflix 可 以 以 惊人 的 准确 性 预测 流量 需求 。 


首次 将 Scryer 应 用 到 生产 环境 几 个 月 后 ，Netflix 就 显著 地 提升 了 客户 的 浏览 体验 ， 
提高 了 服务 的 可 用 性 ， 同 时 降低 了 Amazon EC2 的 成 本 ( 见 图 15-5 )。 





预计 的 工作 量 9 动 扩容 计划 














实例 数 


时 间 时 间 


图 15-5 ”Netflix 根据 Scryer 预测 的 客户 流量 来 调度 AWS 的 计算 资源 
(来 源 ，Jacobson、Yuan、Joshi 的 文章 “Scryer: Netflix 的 预测 性 自动 扩展 引擎 ”) 
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15.4 ”应 用 异常 检测 技术 


在 监控 数据 并 不 呈 高 斯 分 布 的 情况 下 ， 我 们 仍然 可 以 使 用 各 种 方法 来 找到 值得 关注 的 差异 。 
这 些 技术 广泛 地 分 类 为 异常 检测 ， 其 通常 的 定义 是 “搜索 不 符合 预期 模式 的 数据 条 目 或 事件 ”。 
其 中 的 一 些 功能 可 以 在 监控 工具 里 找到 ， 而 其 他 功能 可 能 需要 统计 专家 的 帮助 。 


Rally 软件 公司 的 开发 和 运 维 副 总 裁 Tarun Reddy 积极 地 倡导 运 维 与 数据 统计 之 间 的 积极 协 
作 。 他 说 :“ 为 了 提高 服务 质量 , 我 们 将 所 有 生产 指标 输入 到 统计 分 析 软 件 Tableau 中 。 我 们 甚至 
雇用 了 一 名 受过 统计 学 培训 的 运 维 工程 师 ， 请 他 编写 及 语言 代码 ( 另 一 个 统计 软件 包 )。 这 名 工 
程 师 有 大 量 的 竺 办 事项 , 大 多 是 来 自 公 司 其 他 团队 的 需求 , 他 们 希望 在 影响 客户 的 更 大 事件 发 生 
之 前 ， 尽 早 找到 那些 差异 。 


我 们 采用 了 称 为 平滑 的 统计 技术 , 它 对 于 时 间 序 列 数据 特别 适用 , 这 意味 着 每 个 数据 点 都 有 
一 个 时 间 戳 〈 例 如 ， 下 载 事件 、 已 完成 的 事务 处 理事 件 等 )。 平 滑 技 术 通 常 涉 及 使 用 移动 平均 数 
《或 滚动 平均 数 ) 它 利用 每 个 点 与 滑动 窗口 中 的 所 有 其 他 数据 的 平均 值 , 来 转换 数据 。 这 样 做 有 
助 于 抑制 短期 波动 ， 突 出 长 期 趋势 和 周期 。" 


15-6 中 展示 了 这 种 平滑 技术 的 效果 。 黑 线 表示 原始 数据 ， 而 灰 线 表示 30 天 的 移动 平均 数 
( 即 30 天 的 平均 值 轨迹 )。” 
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1/2/87 2/13/87 3/30/87 5/12/87 6/24/87 8/6/87 9/18/87 10/30/87 12/14/87 


图 15-6 ”Autodesk 股价 和 30 天 移动 平均 数 过 滤器 
(来 源 ，Jacobson、Yuan 和 Joshi 的 文章 “Scryer: Netflix 的 预测 性 自动 扩展 引擎 ”) 





















































中 平滑 和 其 他 统计 技术 也 会 用 于 图 形 和 音频 文件 的 处 理 。 例 如 ， 图 像 的 平滑 ( 或 模糊 )， 其 中 每 个 像素 点 被 其 邻近 
的 所 有 像素 的 平均 值 替 换 。 
@) 平滑 滤波 器 的 其 他 示例 有 加 权 移 动 平 均 数 和 指数 平滑 (分 别 在 较 旧 的 数据 点 上 线性 或 指数 地 加 权 较 新 的 数据 点 ) 等 。 
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还 有 一 些 更 奇特 的 过 滤 技 术 ， 诸 如 快速 传 里 叶 变 换 和 Kolmogorov-Smimov 检验 ( Graphite 
和 Grafana 工具 内 骨 )， 其 中 前 者 广泛 应 用 于 图 像 处 理 ， 后 者 经 常用 于 分 析 周 期 性 /季节 性 度量 数 
据 的 相似 性 或 差异 性 。 


我 们 可 以 预期 ， 与 用 户 有 关 的 大 量 遥 测 数据 将 具有 周期 性 /季节 性 的 相似 性 一 一 网 络 流量 、 
零售 交易 、 电 影 观看 以 及 许多 其 他 用 户 行为 ,其 每 日 、 每 周 和 每 年 的 模式 都 是 惊人 地 规律 和 可 预 
测 。 这 让 我 们 可 以 检测 出 与 历史 规律 有 差异 的 情况 , 例如 , 周二 下 午 的 订单 交易 率 降 至 周平 均 数 
的 50%。 


由 于 这 些 技术 在 预测 方面 非常 实用 , 我 们 或 许 能 在 销售 或 商业 智能 部 门 里 , 找到 具备 数据 分 
析 知 识 和 技能 的 人 员 。 我 们 可 能 希望 找 出 这 些 人 ,和 他 们 一 起 识别 共性 的 问题 ,并 用 改进 的 异常 
检测 和 事故 预测 方法 解决 它们 。” 





















































* 案例 研究 * 
高 级 的 异常 检测 (2014) 


在 2014 年 的 Monitorama 会 议 上 ，Toufic Boubez 博士 介绍 了 异常 检测 技术 的 威力 ， 
特别 强调 了 Komogorov-Smirnov 检验 的 有 效 性 。 这 种 检验 技术 通常 用 于 统计 学 中 ,用 来 
确定 两 个 数据 集 是 否 具 有 明显 差异 。 当 前 流行 的 Graphite 和 Grafana 工具 里 已 经 嵌入 了 
这 种 技术 。 这 个 案例 研究 并 非 旨 在 作为 一 个 教程 ， 而 是 为 了 演示 在 工作 中 如 何 运用 这 类 
统计 技术 ， 以 及 在 组 织 中 如 何 将 其 应 用 于 完全 不 同 的 应 用 程序 。 


图 15-7 显示 了 某 电 子 商务 网 站 每 分 钟 的 交易 次 数 。 注 意 在 这 幅 图 中 ， 每 周 的 交易 
量 是 在 周末 下 降 的 。 目 测 第 四 周 发 生 了 特殊 的 状况 ,因为 周一 的 交易 量 并 没有 恢复 到 正 
常 水 平 。 这 表明 我 们 应 该 对 这 个 事件 进行 调查 。 


用 三 个 标准 差 规则 只 会 生成 两 次 告警 ， 缺 少 了 关键 的 针对 周一 交易 量 下 降 


的 告警 
在 理想 情况 下 ， 我们 希望 当 交 易 量 数据 已 经 偏离 预期 的 周一 模式 时 ， 也 能 收 到 告警 。 


O 


Boubez 博士 开玩笑 说 :虽然 我 们 认为 Kolmogorov-Smirnov 是 让 人 印象 深刻 的 好 方 
法 ， 但 是 运 维 工程 师 应 该 告诉 统计 学 家 ， 对 于 运 维 数据 而 言 ， 这 些 非 参 数 类 型 的 技术 是 
很 好 的 ， 因 为 它们 不 会 做 出 正 态 分 布 或 任何 其 他 概率 分 布 的 假设 , 这 对 我 们 理解 在 非常 
复杂 的 系统 里 到 底 发 生 了 什么 是 至 关 重 要 的 。 这 些 技术 比较 了 两 种 概率 分 布 ， 可 以 用 来 
比较 周期 性 或 季节 性 的 数据 ， 这 对 检查 每 日 或 每 周 的 数据 差异 非常 有 帮助 。” 




















@ 为 了 解决 这 些 类 型 的 问题 ， 我 们 可 以 使 用 的 工具 包括 Microsoft Excel ( 它 仍 然 是 为 一 次 性 目的 而 处 理 数据 的 最 简 
单 和 最 快速 的 方法 之 一 )， 以 及 SPSS、SAS 和 开源 R 项 目 等 统计 软件 包 ， 其 中 R 项 目 是 目前 使 用 最 广泛 的 统计 
软件 之 一 。 还 有 许多 其 他 的 工具 ， 包 括 Etsy 已 经 开源 的 一 些 工具 ， 例 如 ，Oculus ( 可 以 找 出 具有 一 定 相 关 性 的 、 
形状 类 似 的 图 形 ) .Opsweekly( 能 跟踪 告警 的 数量 和 频率 ) 和 Skyline( 可 用 








































































































于 识别 系统 和 应 用 图 形 中 的 异常 行为 )。 
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告警 : 
本 


在 这 段 时 间 里 有 蜡 


常情 况 发 生 ， 但 是 
没有 告 么 …… 












































11.28 星期 四 ”12.5 星期 四 12.12 期 四 12.19 星期 四 ”12.26 星期 四 ”1.2 星期 四 
图 15-7 交易 量 : 使 用 “三 个 标准 差 ” 规 则 的 告警 不 足 
(来 源 : Toufic Boubez 博士 的 文章 “Simple math for anomaly detection”) 















































图 15-8 中 的 数据 集 和 图 15-7 相同 , 应 用 的 是 Kolmogorov-Smirnov 过 滤器 ,第 三 个 
区 域 突出 显示 了 一 个 异常 的 周一 ,其 交易 量 没有 恢复 至 正常 水 平 。 这 就 提醒 了 我 们 ， 此 
时 系统 中 存在 一 个 问题 , 使 用 目测 或 标准 差 的 方式 是 几乎 不 可 能 检测 到 的 。 在 这 种 情况 
下 ,这 种 早期 的 检测 可 以 防止 影响 客户 的 事件 的 发 生 , 也 有 助 于 更 好 地 实现 组 织 的 目标 。 





Tirniviv 有 nrrrrrr 
11.28 星期 四 ”12.5 星期 四 “12.12 星期 四 ”12.19 星期 四 ”12.26 星期 四 ”1.2 星期 四 


图 15-8 ”交易 量 : 使 用 Kolmogorov-Smirnov 验证 检测 异常 现象 并 告警 
(来 源 : Toufic Boubez 博 士 的 文章 “Simple math for anomaly detection”) 
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15.5 “小 结 
本 章 探讨 了 几 种 用 于 分 析 生产 环境 遥测 数据 的 统计 技术 ， 通 过 它们 能 更 早 地 发 现 和 解决 问 
题 ， 并 且 能 在 问题 较 小 的 时 间 予 以 解决 ， 从 而 避免 造成 灾难 性 后 果 。 这 些 技术 使 我 们 能 识别 出 
那些 微弱 的 故障 信和 号， 并 及 时 采取 行动 ,从 而 建立 一 个 更 安全 的 工作 系统 ,同时 提高 实现 目标 的 
能 力 。 
本 章 提供 了 真实 的 案例 研究 ,包括 Netflix 如 何 利用 这 些 技术 主动 地 在 生产 环境 中 移 除 计算 15 
服务 器 , 以 实现 自动 扩展 的 基础 架构 。 此 外 还 讨论 了 如 何 使 用 移动 平均 数 和 有 olmogorov-Smirnov 
过 滤器 ， 目 前 流行 的 遥测 图 形 工具 中 都 使 用 了 它们 。 
下 一 音 将 描述 如 何 将 生产 环境 遥测 集成 到 开发 的 日 常 工作 中 ,使 部 团 更 安全 , 同时 整体 优化 
系统 架构 。 












































2006 年 ，Nick Galbreath 是 Right Media 公司 的 工程 副 总 裁 ,他 负责 管理 在 线 广告 平台 的 开发 
和 运 维 部 门 ， 每 天 由 这 个 平台 显示 和 提供 的 广告 超过 100 亿 次 。 


Galbreath 描述 了 他 们 当时 在 运 维 方 面 所 遇 到 的 挑战 : 


在 我 们 的 业务 中 ,广告 存货 是 极其 动态 的 ， 因此 我 们 需要 在 几 分 钟 内 对 市 场 状态 做 
出 反应 。 这 就 意味 着 开发 人 员 必 须 能 够 进行 快速 的 代码 变更 ， 并 尽快 发 布 到 生产 环境 ， 
否则 就 会 输 给 速度 更 快 的 竞争 对 手 。 我们 发 现 将 测试 甚至 是 部 署 工作 分 配给 单独 的 一 个 
组 太 慢 了 。 我 们 必须 将 所 有 这 些 职 能 纳入 到 一 个 组 内 , 让 他 们 共同 承担 责任 , 完成 目标 。 
不 管 你 信 不 信 ， 我 们 最 大 的 挑战 是 让 开发 人 员 克 服 对 部 署 代 码 的 恐惧 ! 


具有 讽刺 意味 的 是 , 开发 人 员 经 常 抱怨 运 维 人 员 不 敢 部 署 代码 。 但 当 开 发 人 员 也 拥有 了 部 署 
代码 的 权力 时 ， 他 们 自己 也 开始 害怕 部 署 代码 了 。 


代码 部 署 巩 惧 在 Right Media 公司 的 开发 和 运 维 团 队 里 普遍 存在 。 然 而 ，Galbreath 发 现 ,在 
工程 师 (无 论 是 开发 还 是 运 维 ) 部 署 代码 的 时 候 , 通过 提供 更 快 和 更 频繁 的 反馈 ,以 及 减少 部 署 
工作 的 批量 大 小 ， 可 以 让 他 们 获得 代码 部 署 的 安全 感 ， 进 而 重 拾 信心 。 


发 现 很 多 团队 都 经 历 了 这 种 转变 以 后 ，Galbreath 描述 了 他 们 的 发 展 过 程 : 


刚 开 始 ， 大 家 都 对 生产 系统 的 宕 机 感到 万 分 恐惧 ,不 管 是 开发 还 是 运 维 ， 没 有 人 愿 

意 点 击 那个 “部 署 代码 ”按钮 ， 去 触发 全 套 的 自动 化 代码 部 署 流程 。 最终， 当 有 人 和 勇敢 

地 部 署 了 代码 以 后 ， 由 于 之 前 错误 的 假设 或 者 由 于 不 完全 了 解 生产 环境 的 细节 ， 第 一 次 

生产 环境 的 代码 部 署 都 不 可 避免 地 出 现 了 问题 。 当 时 我 们 对 生产 环境 的 监控 不 全 面 ， 我 

们 了 解 到 的 问题 都 是 客户 反映 上 来 的 。 

为 了 解决 这 个 问题 ,团队 紧急 地 修复 代码 缺陷 并 再 次 部 署 到 生产 环境 , 但 这 一 次 , 我 们 在 应 
用 程序 和 环境 中 增加 了 更 多 的 生产 遥测 机 制 。 这 样 , 我 们 可 以 确认 间 题 是 否 得 到 了 修复 ,服务 是 
和 否 恢复 正常 ， 并 且 可 以 在 客户 之 前 检测 到 这 类 问题 。 
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后 来 , 越 来 越 多 的 开发 人 员 也 开始 在 生产 环境 里 部 署 代码 了 。 因 为 我 们 都 在 一 个 复杂 的 系统 
中 工作 , 所 以 仍然 有 可 能 破坏 生产 环境 中 的 某 些 功能 , 但 是 这 一 次 , 我 们 能 够 迅速 地 探测 到 应 用 
功能 的 故障 , 并 且 能 快速 决定 是 回 滚 还 是 直接 修复 问题 。 这 是 整个 团队 巨大 的 胜利 ， 每 个 人 都 为 
此 而 庆祝 一 一 我 们 终于 走 上 了 正确 的 道路 。 


然而 , 团队 希望 改进 他 们 的 部 署 结 果 , 所 以 开发 人 员 开始 主动 地 请 同行 对 他 们 的 代码 变更 进 
行 评 审 (会 在 第 18 章 讲 述 ), 大 家 互相 帮助 写 出 更 加 优质 的 自动 化 测试 代码 ， 以 便 在 部 署 前 就 发 
现 错误 。 同 时 ， 由 于 每 个 人 都 理解 了 “对 生产 环境 的 变更 越 小 ， 遇 到 的 问题 就 越 少 ” 这 个 道理 ， 
开发 人 员 更 频繁 地 在 部 署 流水 线 中 签 人 更 小 的 代码 增 量 , 确保 变更 在 生产 环境 中 能 成 功 运行 , 然 
后 再 进行 下 一 次 代码 变更 。 


现在 , 我 们 部 署 代码 的 频率 比 以 往 任何 时 候 都 频繁 ,而 且 服 务 的 稳定 性 也 更 好 了 。 我 们 再 次 
意识 到 , 实现 工作 稳定 和 持续 流动 的 决 窃 就 在 于 频繁 地 进行 小 规模 的 变更 , 这 样 任何 人 都 可 以 评 
审 并 能 轻松 理解 。 


Galbreath 发 现 ， 上 述 改进 使 所 有 人 都 受益 ， 包 括 开发 、 运 维和 信息 安全 人 员 。“ 作 为 同时 负 
责 安全 的 人 ， 我 很 高 兴 ， 我 们 现在 可 以 快速 地 将 补丁 程序 部 署 到 生产 环境 中 ， 因 为 一 天 24 小 时 
都 可 以 部 署 变更 。 此 外 ， 让 我 感到 惊讶 的 是 ， 当 发 现代 码 有 问题 时 ， 工 程 师 会 迅速 地 去 修复 ,他 
们 都 参与 到 了 安全 加 固 中 。” 


Right Media 的 案例 证 明 仅 仅 实 现 部 署 流程 的 自动 化 是 不 够 的 一 一 我 们 必须 要 将 生产 遥测 的 
监控 融入 到 部 署 工作 中 , 同时 还 要 建立 文化 规范 , 那 就 是 每 个 人 都 对 整个 价值 流 的 健康 承担 着 相 
同 的 责任 。 


本 章 将 建立 反馈 机 制 ， 证 我 们 在 服务 生命 周期 的 每 个 阶段 (从 产品 设计 到 开发 和 部 署 ， 再 到 
运 维和 最 终 下 线 )， 都 能 够 持续 地 改善 价值 流 的 健康 状况 。 这 样 ， 就 可 以 保证 服务 始终 处 于 “就 
绪 ” 的 状态 ,即使 是 在 项 目的 初始 阶段 ， 同 时 还 可 以 从 每 次 发 布 和 生产 问题 中 总 结 和 学 习 ， 并 将 
经 验 用 于 未 来 的 工作 中 ， 从 而 提高 安全 性 和 每 个 人 的 生产 力 。 


























































































































16.1 通过 遥测 使 部 署 更 安全 


在 这 个 阶段 ， 我 们 确保 在 任何 人 执行 生产 部 署 时 ， 都 积极 主动 地 监控 生产 环境 的 度量 指标 ， 
就 像 Right Media 的 案例 那样 。 这 可 以 让 部 署 人 员 《〈 无 论 是 开发 人 员 还 是 运 维 人员 ) 在 新 版 本 在 
生产 环境 中 运行 以 后 ,快速 地 确认 功能 是 不 是 按 预 期 正常 运行 。 毕 竟 , 在 这 个 新 版 本 按 预 期 在 生 
产 环境 中 运行 以 前 ， 我 们 都 不 应 该 认为 代码 部 署 或 生产 环境 变更 已 经 完成 。 


我 们 在 部 署 过 程 中 积极 地 监控 软件 功能 相关 的 度量 指标 ， 以 确保 没有 无 意 中 破 坏 自己 的 服 
务 , 或 者 更 糟糕 的 是 , 破坏 了 男 一 项 服务 。 如 果 变 更 真 的 破坏 或 影响 了 其 他 功能 ,我 们 就 会 召集 
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所 有 相关 人 员 来 诊断 和 解决 问题 ， 迅 速 恢复 服务 。” 


如 第 三 部 分 所 述 , 我 们 的 目标 是 在 软件 进入 生产 环境 之 前 , 在 部 署 流水 线 中 就 发 现 错误 。 然 
而 , 还 是 存在 着 检测 不 到 的 错误 , 这 就 要 依靠 生产 环境 的 遥测 来 快速 恢复 服务 了 。 我 们 可 以 使 用 
特性 开关 关闭 出 错 的 功能 ( 这 通常 是 最 简单 且 风 险 最 小 的 选择 ， 因 为 它 不 涉及 生产 部 署 )， 或 者 
前 向 修复 这 个 错误 ( 即 为 了 修复 缺陷 而 修改 代码 ,然后 通过 部 署 流水 线 将 代码 变更 部 署 到 生产 环 
境 )， 或 者 回 退 〈 例 如 ， 使 用 特性 开关 切换 回 之 前 的 旧版 本 ， 或 通过 蓝 绿 部 署 、 金 丝 誉 发布 等 模 
式 ， 将 出 错 的 服务 需 做 离线 处 理 )。 


虽然 前 向 修复 通常 是 危险 的 , 但 是 当 拥有 了 自动 化 测试 、 快 速 部 署 流 水 线 以 及 全 面 的 遥测 之 
后 ,我 们 就 可 以 快速 地 确认 生产 环境 中 的 一 切 是 否 正 常 运行 ， 这 样 其 实 是 非常 安全 的 。 


16-1 显示 了 Etsy 在 一 次 部 署 PHP 代码 变更 时 ，PHP 的 运行 时 警告 数量 产生 了 一 个 峰值 。 
在 这 种 情况 下 ,开发 人 员 在 几 分 钟 内 就 发 现 了 问题 , 修复 了 有 问题 的 代码 ,并 将 代码 变更 部 署 到 
生产 环境 中 ， 总 之 在 10 分 钟 内 就 解决 了 问题 。 

由 于 部 署 是 导致 生产 环境 故障 的 主要 原因 之 一 , 每 一 次 的 部 署 和 变更 事件 都 会 显示 到 监控 视 


图 上 ， 以 保证 价值 流 中 的 每 个 人 都 能 了 解 相关 活动 , 从 而 实现 更 好 的 沟通 和 协作 ,以 及 更 快 的 探 
测 和 故障 修复 。 























































































































部 署 导致 的 PHP 8 分 钟 后 补丁 部 团 
运行 时 错误 到 了 生产 环境 


600 
480 


360 


240 


16:00 16:10 16:20 16:30 16:40 16:50 


国 PHp 营 告 数量 国 代码 部 轩 


图 16-1 Etsy.com 的 部 署 引 发 PHP 运行 时 警告 后 的 迅速 修复 
(来 源 : Mike Brittain 的 文章 “Tracking Every Release”) 











@ 通过 这 种 方式 ， 并 结合 所 需 的 架构 ， 我 们 “优化 了 平均 恢复 时 间 ， 而 不 是 平均 故障 间隔 时 间 ”。 这 是 一 条 流行 的 
DevOps 准则 ， 它 强调 的 是 持续 提升 从 故障 中 快速 恢复 的 能 力 ， 而 不 是 企图 避免 发 生 故 障 。 
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16.2 ”开发 和 运 维 共同 承担 值班 工作 


即便 生产 环境 中 的 部 署 和 发 布 工作 已 经 做 得 无 懈 可 击 了 , 对 于 任何 复杂 的 服务 而 言 , 仍然 会 
有 意外 情况 发 生 ， 例 如 每 天 凌晨 2 点 的 告警 和 宕 机 。 如 果 不 修复 ,可 能 会 导致 问题 复发 , 会 使 下 
游 的 运 维 工程 师 苦 不 堪 言 ， 尤 其 是 当 造 成 问题 的 上 游程 序 员 看 不 到 这 些 问题 时 ， 人 情况 会 更 严重 。 


即使 把 这 些 问 题 提交 给 了 开发 团队 ， 修 复 这 些 问 题 的 优先 级 很 可 能 比 交 付 新 特性 的 优先 级 
低 。 这 些 问题 会 反复 发 作 数 周 、 数 月 甚至 数 年 ， 导 致 运 维 工作 持续 混乱 和 中 断 。 这 个 例子 说 明 ， 
上 游 工 作 中 心 只 做 本 地 的 局 部 优化 时 ， 实 际 上 降低 了 整个 价值 流 的 性 能 。 


为 了 防止 发 生 以 上 状况 , 我 们 会 让 价值 流 中 的 所 有 人 共同 承担 处 理 运 维 事故 的 下 游 责 任 。 为 
此 ， 我 们 会 让 开发 人 员 、 开 发 经 理 和 架构 师 轮流 和 运 维 团队 共同 值班 ， 就 如 Facebook 的 生产 品 
工程 总 监 Pedro Canahuat 在 2009 年 所 做 的 一 样 。 这 确保 了 价值 流 中 的 所 有 人 能 够 就 他 们 所 做 的 
上 游 架 构 和 编码 决策 得 到 直接 的 反馈 。 


这 样 , 运 维 人 员 不 再 独自 、 孤 立地 解决 生产 环境 中 的 代码 缺陷 ; 相反 ,所 有 人 都 会 帮忙 在 修 
复生 产 环境 缺陷 和 开发 新 功能 之 间 实 现 平 衡 ， 而 不 管 他 们 来 自 价 值 流 中 的 哪 一 环 。 正 如 2011 年 
New Relic 产品 管理 高 级 副 总 裁 Patrick Lightbody 所 说 :“ 我 们 发 现 ， 当 凌晨 2 点 请 开发 人 员 上 线 
一 起 修复 故障 时 ， 问 题解 决 的 速度 要 比 以 前 快 得 多 。” 


以 上 实践 还 帮助 开发 管理 人 员 意 识 到 ,每 一 项 产品 功能 都 标记 为 “完成 ”并 不 代表 业务 目标 
已 经 实现 。 相 反 ， 所 有 功能 都 在 生产 环境 中 按照 设计 正常 地 运行 , 没有 引起 重大 的 故障 ,也 没有 
引发 计划 外 的 运 维 或 开发 工作 ， 才 是 真 的 “完成 ”。™ 


这 种 做 法 对 各 种 团队 都 适用 , 包括 面向 市 场 的 团队 、 负 责 开 发 和 运行 功能 的 团队 ,以 及 以 职 
能 为 导向 的 团队 。PagerDuty 的 运 维 工程 经 理 Arup Chakrabarti 在 2014 年 的 一 次 演讲 中 谈 到 :“ 在 
公司 里 设置 专门 的 、 随 叫 随 到 的 救火 队 已 经 越 来 越 罕见 了 。 相 反 , 在 发 生 宕 机 时 ,与 生产 代码 和 
环境 有 关 的 每 个 人 都 应 该 能 联系 上 。” 


不 管 团队 的 组 织 结构 怎样 , 基本 原则 是 不 变 的 : 当 开发 人 员 获 得 应 用 程序 在 生产 环境 中 运行 的 
反馈 时 , 包括 故障 的 修复 状况 ,他 们 与 客户 之 间 的 距离 就 更 近 了 , 这 会 使 价值 流 中 的 所 有 人 都 受益 。 
16.3 ”让 开发 人 员 跟 踩 工作 对 下 游 的 影响 


交互 和 用 户 体验 设计 中 最 强大 的 技术 之 一 是 情境 访谈 。 产 品 开发 团队 观察 客户 在 他 们 的 自然 
环境 中 (通常 是 在 他 们 的 办 公 桌 前 ) 使 用 应 用 程序 ， 这 就 是 情境 访谈 。 通 过 情境 访谈 ， 通 常会 发 
现 客户 在 使 用 产品 的 过 程 中 所 遇 到 的 困难 , 例如 , 在 日 常 工作 中 执行 一 项 简单 的 任务 也 需要 很 多 


















































































































































GODITIL 将 “保证 ”定义 为 服务 能 在 生产 环境 中 可 靠 地 运行 一 段 预定 时 间 ( 例如 两 周 ) 而 无 需 干 预 。 理 想 情况 下 ， 这 
个 “保证 ”的 定义 应 该 纳入 到 “完成 ”的 定义 中 。 
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次 点 击 操作 ， 需 要 在 多 个 屏幕 之 间 复 制 和 粘贴 文本 ， 或 者 需要 在 纸 上 记录 信息 。 其 实 这 些 都 是 补 
偿 性 行为 ， 是 由 应 用 程序 的 可 用 性 不 足 造 成 的 。 

在 进行 以 上 客户 观察 后 ， 开 发 人 员 通 常会 感到 非常 诅 形 ， 常 常会 说 :“ 原 来 我 们 给 客户 造成 
了 痛苦 ， 真 是 太 糟 糕 了 ! ”显然 客户 观察 是 一 种 非常 好 的 学 习 形 式 ， 并 且 会 激发 开发 人 员 去 改善 
客户 体验 。 

我 们 的 目标 是 运用 这 种 技术 观察 我 们 的 工作 对 内 部 客户 产生 的 影响 。 开 发 人 员 应 该 跟踪 他 们 
的 工作 ， 这 样 可 以 看 到 下 游 工 作 中心 在 生产 环境 中 是 如 何 与 他 们 开发 的 产品 交互 的 。” 


开发 人 员 和 希望 跟踪 他 们 的 工作 对 下 游 的 影响 一 一 通过 亲 见 客户 所 面临 的 困难 , 他 们 会 在 日 常 
开发 工作 中 做 出 更 好 和 更 明智 的 决策 。 


通过 这 种 方式 ， 我 们 获得 了 对 代码 的 非 功能 方面 (包括 所 有 与 面向 客户 的 功能 无 关 的 元 素 ) 
的 反馈 ， 并 能 找到 提高 应 用 程序 的 可 部 署 性 、 可 管理 性 、 可 维护 性 等 的 方式 。 
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用 户 体验 观察 通常 对 观察 者 有 极 大 的 影响 。Gene Kim 是 Tripwire 公司 的 创始 人 ， 并 担任 公 
司 首席 技术 官 13 年 之 入， 也 是 本 书 的 合 著者 。 回 忆 自己 第 一 次 做 客户 观察 的 情景 时 ， 他 说 : 





2006 年 的 那 次 经 历 是 我 职业 生涯 中 最 糟糕 的 时 刻 之 一 。 当 时 ， 整 个 上 午 我 都 在 观 
察 一 位 客户 使 用 我 们 的 产品 。 我 在 观察 用 户 执行 一 个 操作 , 这 个 操作 我 们 预期 客户 每 周 
都 会 做 。 但 是 让 我 们 感到 非常 怒 怖 的 是 ， 这 项 工作 一 共 需 要 点 击 和 据 标 63 次 才能 完成 。 
那 位 客户 不 断 地 道歉 :“ 对 不 起 ， 或 许 有 更 好 的 操作 方式 。 


不 幸 的 是 ， 并 没有 更 好 的 方式 完成 这 个 操作 。 另 一 个 客户 描述 到 ， 产 品 的 初始 化 配 

置 需要 1300 步 。 突 然 间 ， 我 理解 了 为 何 管理 产品 的 工作 总 是 分 配给 团队 中 新 来 的 工程 

师 一 一 因为 根本 没 人 想 做 运行 产品 的 工作 。 这 是 我 在 公司 里 帮助 创建 用 户 体验 实践 的 原 

因 之 一 ， 目 的 是 为 了 解决 我 们 给 客户 带 来 痛苦 体验 的 问题 。 

通过 进行 用 户 体验 观察 ， 能 够 在 源头 保证 质量 ， 并 对 价值 流 中 的 其 他 团队 成 员 产生 同 理 心 。 
理想 情况 下 ,用 户 体 验 观 察 有 助 于 我 们 创建 应 用 的 非 功能 需求 ,并 将 其 放 入 共享 的 待 办 工作 中 去 ， 
最 终 我 们 可 以 主动 地 将 它们 落实 到 构建 的 所 有 服务 中 ,这 是 DevOps 文化 建设 工作 的 一 个 重要 组 
成 部 分 。” 
























































@) 跟踪 工作 结果 有 助 于 发 现 改进 流程 的 方式 ， 例 如 : 自动 化 复杂 的 手动 操作 ( 如 配置 好 一 个 应 用 服务 器 集群 需要 6 
个 小 时 才能 完成 ) 只 执行 一 次 代码 打包 ， 而 不 是 在 QA 和 生产 环境 部 署 的 不 同 阶段 多 次 打包 ; 与 测试 人 员 一 起 
自动 化 手动 测试 套件 ， 从 而 消除 频繁 部 署 的 常见 瓶 绒 ; 创建 更 有 用 的 文档 ， 而 不 是 让 其 他 人 基于 开发 人 员 所 写 的 
应 用 注释 去 构建 程序 安装 包 。 
@ 最 近 ，Jeff Sussna 在 他 所 谓 的 “数字 对 话 ” 中 试图 进一步 解释 如 何 更 好 地 实现 用 户 体验 目标 。 这 个 对 话 旨 在 帮助 组 织 
将 客户 的 产品 体验 之 旅 视 为 一 个 复杂 系统 ， 同 时 拓宽 质量 的 范畴 。 关 键 概念 包括 : 设计 的 是 服务 而 不 是 软件 ;最 小 
化 延迟 ,最 大 化 反馈 的 强度 ; 设计 产品 时 考虑 到 故障 ， 并 在 操作 中 学 习 ; 把 运 维 作为 设计 的 输入 ; 追求 建立 同 理 心 。 
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16.4 ”让 开发 人 员 自 行 管理 生产 服务 


即使 开发 人 员 平 时 在 类 生产 环境 中 编写 和 运行 代码 , 运 维 团 队 仍 有 可 能 遇 到 导致 灾难 性 事故 
的 产品 发 布 , 因为 这 其 实 是 我 们 第 一 次 看 到 代码 在 真实 生产 条 件 下 的 表现 。 出 现 这 种 结果 的 原因 
是 ,在 软件 生命 周期 中 运 维 学 习 往 往 进行 得 太 晚 了 。 


如 果 不 解 决 这 个 问题 ， 往 往 会 导致 生产 软件 难以 平稳 运行 。 一 名 匿名 运 维 工程 师 曾 经 说 过 : 
“在 我 们 的 团队 中 ， 大 多 数 系 统管 理 员 只 工作 6 个 月 。 生 产 环境 中 总 是 发 生 故 障 ， 那 些 时 刻 太 让 
人 抓 狂 了 ,部 署 应 用 程序 的 痛苦 简直 让 人 难以 置信 。 最 糟糕 的 是 配置 应 用 程序 服务 器 集群 ,整整 
花 了 我 们 6 个 小 时 。 我 们 无 时 无 刻 不 在 想 : 这 些 开 发 人 员 是 故意 整 器 我 们 。 


如 有 果 没 有 足够 的 运 维 工程 师 来 支持 所 有 的 产品 团队 和 现 有 的 生产 服务 ， 就 会 导致 这 样 的 结 
果 。 这 种 状况 既 会 在 功能 导向 的 团队 里 发 生 ， 也 会 在 市 场 导 向 的 团队 里 发 生 。 


为 了 解决 这 一 问题 , 谷歌 的 一 项 实践 是 值得 参考 的 。 他 们 先 让 开发 团队 自己 在 生产 环境 中 管 
理 他 们 开发 的 服务 ,然后 才能 交 由 集中 的 运 维 团队 管理 。 通 过 让 开发 人 员 自 己 负责 部 署 工作 并 且 
在 生产 环境 中 提供 支持 ， 他 们 所 开发 的 产品 更 有 可 能 顺利 地 过 渡 给 运 维 团队 去 管理 。” 


为 了 防止 有 问题 的 自 管理 服务 进入 生产 环境 , 带 来 组 织 性 风险 , 我 们 可 以 定义 服务 的 发 布 要 
求 。 只 有 满足 这 些 要 求 ， 服 务 才能 与 真实 客户 交互 ， 并 暴露 给 生产 环境 流量 。 此 外 ， 为 了 帮助 产 
品 团队 ， 运 维 工程 师 应 该 担当 顾问 ， 帮 助 他 们 做 好 将 服务 部 署 到 生产 环境 的 准备 。 


通过 建立 服务 发 布 指南 , 有 助 于 确保 用 整个 组 织 的 集体 智慧 , 特别 是 运 维 团队 所 累积 的 经 验 ， 
去 帮助 每 一 个 产品 开发 团队 。 服 务 发 布 指南 和 要 求 可 能 包括 以 下 内 容 。 


口 缺陷 计数 和 严重 性 : 应 用 程序 是 按 设计 运行 的 吗 ? 

口 告警 的 类 型 /频率 : 在 生产 环境 中 应 用 程序 所 产生 的 告警 数量 是 否 太 多 ， 无 法 得 到 支持 ? 
D 监控 覆盖 率 : 监控 覆盖 的 范围 是 否 够 大 ， 能 够 为 恢复 故障 服务 提供 足够 的 信息 ? 

口 系统 架构 : 服务 松 耦合 的 程度 是 否 足以 支持 生产 环境 中 高 频率 的 变更 和 部 署 ? 

D 部 署 过 程 : 在 生产 环境 中 代码 部 署 的 过 程 是 不 是 可 预测 的 、 确 定性 的 和 足够 自动 化 的 ? 
口 生产 环境 的 整洁 : 是 否 有 迹象 表明 生产 习惯 已 经 足够 好 ， 可 以 让 其 他 任何 人 提供 生产 
文 持 ? 


从 表面 上 看 ， 这 些 要 求 类 似 于 过 去 我 们 对 传统 生产 环境 的 管理 。 然 而 ,关键 的 差异 在 于 , 我 
们 需要 有 效 的 监控 ,部 署 可 靠 且 确定 ， 应 用 架构 能 够 支持 快速 和 频繁 的 部 署 。 

如 果 在 审查 期 间 发 现 了 任何 缺陷 , 指派 的 运 维 工程 师 应 该 帮助 功能 开发 团队 解决 问题 , 其 至 
在 必要 时 帮助 他 们 重新 设计 服务 ， 以 便 在 生产 环境 中 轻松 地 部 署 和 管理 。 

















































































































































































































































































































中 通过 保持 开发 团队 的 完整 性 ， 且 在 项 目 完成 后 也 不 解散 团队 ， 进 一 步 增加 了 解决 生产 问题 的 可 能 性 。 
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目前 ， 我 们 还 可 能 想 了 解 ， 现 在 或 者 未 来 ， 这 项 服务 是 否 要 遵从 任何 监管 目标 。 


口 服务 是 否 产 生 了 大 量 的 收益 ?( 例如 , 如 果 其 收入 是 美国 一 家 上 市 公司 总 收入 的 5% 以 上 ， 
那么 它 就 是 一 个 “重要 账户 ”， 必 须 遵 守 2002 年 《 萨 班 斯 -奥克斯 利 法 案 》 第 404 条。 ) 
口 服务 的 用 户 流量 或 停机 /损害 成 本 是 否 很 高 ”( 即 运 维 问题 是 否 会 导致 可 用 性 或 声誉 风 
险 ? ) 

口 服务 是 否 存储 付款 卡 持 有 者 信息 (如 信用 卡号 ) 或 个 人 身份 信息 〈 如 社会 安全 号 码 或 病 
人 护理 记录 ) ? 是 否 存在 可 能 产生 监管 、 合 同 义 务 、 隐 私 或 声誉 风险 的 其 他 安全 问题 ? 
口 服务 是 否 有 任何 其 他 监管 或 合同 要 求 ， 如 美国 出 口 监管 、PCI-DSS、HIPAA 等 ? 


以 上 信息 将 确保 我 们 有 效 地 管理 与 服务 相关 的 技术 风险 , 以 及 潜在 的 安全 和 合 规 风险 。 它 还 
为 生产 环境 的 控制 和 设计 提供 了 重要 的 输入 。 


妇 
SRE 自行 运行 SRE 描 


\ ‘yg 


交接 就 绪 审 核 (HRR) 



























































































































时 间 
图 16-2 谷歌 的 “服务 回 传 ” 


(来 源 : YouTube 视频 “SRE@Google: Thousands of DevOps Since 2004”，45:57，USENIX 发 布 于 2012 年 1 月 12 日 ， 
https:/www.youtube.com/watch?v=iIuTnhdTzK ) 
通过 在 开发 过 程 的 最 初 阶段 融入 可 运 维 性 需求 , 并 让 开发 人 员 先 自行 管理 自己 的 应 用 程序 和 
服务 ,可 使 新 服务 发 布 到 生产 环境 的 过 程 变 得 更 加 顺畅 、 容 易 和 可 预测 。 然 而 ,对 于 生产 环境 中 
的 现 有 服务 而 言 , 我 们 需要 另外 一 种 机 制 来 保证 运 维 不 会 陷 在 无 法 支持 的 服务 中 无 法 自拔 。 这 对 
于 功能 导向 的 运 维 组 织 尤其 重要 。 


在 这 个 阶段 ,我 们 可 以 建立 服务 回 传 机 制 。 换 名 话说 ， 当 生产 环境 中 的 一 个 服务 变 得 非常 脆 
弱 时 ， 运 维 部 门 能 把 支持 这 个 服务 的 责任 交 回 给 开发 部 门 。 
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在 服务 变 为 由 开发 人 员 管 理 时 , 运 维 部 门 的 角色 就 从 提供 生产 支持 变 为 开发 部 门 的 顾问 ， 帮 
助 开发 团队 再 次 将 服务 变 成 生产 环境 就 绪 状 态 。 


这 种 机 制 对 于 运 维 人 员 来 说 就 像 是 减 压 阀 , 它 确 保 运 维 团 队 不 会 陷入 这 种 境地 : 不 得 不 管理 
脆弱 的 服务 ,同时 技术 债务 不 断 累 积 , 局 部 问题 扩大 为 全 局 问题 。 这 一 机 制 还 有 助 于 保障 运 维 部 
门 拥 有 足够 的 能 力 去 开展 改进 工作 和 预防 性 项 目 。 


回 传 这 一 实践 在 谷歌 由 来 已 入 , 也 许 这 是 开发 和 运 维 工 程 师 互 相 尊 重 的 最 佳 体 现 。 通 过 采用 
这 种 实践 ,开发 部 门 能 快速 地 开发 新 服务 ; 当 一 个 服务 对 公司 具有 战略 意义 时 , 会 有 运 维 工程 师 
加 入 团队 ; 只 在 极 少数 情况 下 ， 当 服务 在 生产 环境 中 难以 管理 的 时 候 ， 才 会 回 传 给 开发 人 员 。” 
下 面 有 关 谷 歌 站 点 可 靠 性 工程 的 案例 研究 中 ， 描 述 了 “交接 就 绪 审 核 ”( Hand-off Readiness 
Review，HRR ) 和 “上 线 就 绪 审 核 ”( Launch Readiness Review，LRR ) 流程 是 怎样 演进 的 及 其 
所 带 来 的 好 处 。 



























































* 案例 研究 * 
谷歌 的 HRR 和 LRR (2010) 


谷歌 的 很 多 实践 都 是 令 人 称奇 的 ,其 一 是 他 们 对 运 维 工程 师 有 一 个 职能 定位 , 即 “站 
点 可 靠 性 工程 师 ”( Site Reliability Engineer，SRE )， 这 个 术语 是 由 Ben Treynor Sloss 在 
2004 年 提出 的 。” 那 一 年 ，Treynor Sloss 只 有 7 名 SRE， 到 2014 年 SRE 已 增加 到 1200 
多 人 。Treynor Sloss 说 :“ 要 是 谷歌 发 生 了 宕 机 事故 ， 就 是 我 的 错 。” 虽 然 Treynor Sloss 
反对 用 一 句 话 来 定义 SRE， 但 他 曾 说 : “SRE 就 是 软件 开发 工程 师 负责 了 以 前 所 说 的 运 
维 工作 。” 


所 有 的 SRE 都 向 Treynor Sloss 的 组 织 汇报 ， 从 而 保证 分 配 的 员工 和 招聘 的 人 员 质 
量 一 致 ， 并 将 他 们 都 融入 到 谷歌 (还 提供 资金 ) 的 产品 开发 团队 。 然 而 ， 相 对 而 言 SRE 
仍然 非常 稀少 , 所 以 只 会 将 他 们 分 配给 对 公司 来 说 最 重要 的 产品 团队 , 或 者 必须 遵从 监 
管 要 求 的 产品 团队 。 此 外 ,这 些 服务 的 运 维 负担 必须 比较 低 。 那 些 不 符合 必要 条 件 的 产 
品 仍 由 开发 人 员 管 理 。 


即使 新 产品 非常 重要 ， 已 经 到 了 需要 公司 分 配 SRE 的 程度 ， 开 发 人 员 仍 然 必 须 在 
生产 环境 中 管理 他 们 的 服务 至 少 6 个 月 ， 然 后 产品 团队 才 有 资格 分 配 到 SRE 人 员 。 


为 了 帮助 这 些 自己 管理 产品 的 团队 ， 确 保 他 们 依然 能 得 益 于 SRE 组 织 的 集体 经 验 ， 

















g 在 按 项 目 支 配 资金 的 组 织 中 ， 由 于 团队 已 经 解散 了 ， 或 者 没有 承担 服务 责任 的 预算 和 时 间 ， 可 能 就 没有 能 接受 服 

务 回 传 的 开发 人 员 了 。 潜 在 的 对 策 包括 开展 一 个 突击 行动 来 改善 服务 ， 为 改善 服务 临时 提供 资金 或 雇用 人 员 , 或 

者 将 这 个 服务 下 线 。 

@@ 在 本 书 中 ,我 们 使 用 “ 运 维 工程 师 ” 这 个 术语 ,但 “ 运 维 工程 师 ” 和 “站 点 可 靠 性 工程 师 ” 这 两 个 术语 其 实 是 可 
以 互 换 的 。 
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谷歌 为 发 布 新 服务 的 两 个 关键 阶段 建立 了 两 套 安 全 检查 ， 分 别 是 交接 就 绪 审 核 (LRR ) 
和 上 线 就 绪 审 核 (HRR )。 


谷歌 在 将 任何 新 服务 公开 给 客户 并 且 接 收 生 产 流 量 之 前 ， 必 须 进 行 LRR， 而 且 要 
签字 验收 ， 而 当 将 服务 转换 到 运 维 管理 状态 后 (通常 是 在 LRR 几 个 月 之 后 ) 执行 HRR。 
LRR 和 HRR 审核 清单 其 实 是 相似 的 , 但 是 HRR 更 加 严格 , 并 且 验 收 标 准 更 高 , 而 LRR 
是 由 产品 团队 自行 执行 并 上 报 的 。 


任何 通过 了 LRR 或 HRR 的 产品 团队 都 会 分 配 到 一 名 SRE 人 员 ， 才 助 他 们 了 解 和 
实现 需求 ( 见 图 16-3 )。 随 着 时 间 的 推移 ，LRR 和 HRR 发 布 清单 也 在 不 断 地 发 展 ， 这 
样 所 有 团队 都 可 以 受益 于 以 前 所 有 的 集体 经 验 ， 不 论 发 布 是 成 功 还 是 失败 。Tom 
Limoncelli 在 他 2012 年 的 演讲 “SRE@Google: Thousands of DevOps Since 2004” 中 指出 : 
“我 们 在 每 次 发 布 时 都 会 学 到 东西 。 总 有 一 些 人 的 发 布 和 交接 经 验 比 其 他 人 少 。LRR 和 
HRR 审核 清单 是 建立 组 织 记忆 的 一 种 方式 。” 
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图 16-3 “上 线 就 绪 审 核 ” 和 “交接 就 绪 审 核 ” 
(来 源 : YouTube 视频 “SRE@Google: Thousands of DevOps Since 2004”，45:57，USENIX 发 布 于 2012 年 1 月 12 日 ， 
https:/www.youtube.com/watch?v=iIuTnhdTzK0 ) 



































要 求 产品 团队 在 生产 环境 中 管理 自己 开发 的 服务 ,会 促使 开发 人 员 转 换 到 运 维 的 工 
作 视 角 , 但 这 是 在 LRR 和 HRR 的 指导 下 进行 的 ， 这 不 仅 使 服务 转换 变 得 更 容易 、 更 可 
预测 ， 而 且 有 助 于 在 上 游 与 下 游 工 作 中 心 之 间 建 立 同 理 心 。 

Limoncelli 指出 :“ 在 最 好 的 情况 下 ， 产 品 团队 一 直 在 使 用 LRR 清单 作为 指导 ， 在 
开发 服务 的 同时 满足 它 的 要 求 ,， 并 且 平 时 主动 地 联系 SRE, 以 便 在 需要 的 时 候 得 到 他 们 
的 帮助 。 
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此 外 ，Limoncelli 还 发 现 :“ 从 早期 的 设计 阶段 到 发 布 上 线 ， 与 SRE 越 早 合作 的 开 
发 团队 ， 往 往 是 最 快 通过 HRR 的 团队 。 非 常 棒 的 一 点 是 ,很 容易 找到 一 名 SRE 来 为 项 
目 提 供 帮助 。 所 有 的 SRE 都 认为 ， 尽 早 地 为 项 目 团队 提供 建议 是 很 有 价值 的 ， 而 且 他 
们 很 可 能 愿意 花 几 个 小 时 或 是 几 天 来 做 这 件 事 。” 


SRE 在 项 目的 早期 阶段 就 帮助 产品 团队 ， 这 是 谷歌 不 断 强化 的 一 个 重要 的 文化 规 
范 。Limoncelli 解释 说 :“SRE 帮助 产品 团队 是 一 项 长 期 投入 ,要 在 多 个 月 以 后 ,发 布 服 
务 的 时 候 ， 才 能 看 到 回报 。 这 是 重要 的 “优秀 公民 ”和 “社区 服务 ”的 一 种 形式 ， 在 评 
估 工 程 师 能 否 提升 为 SRE 时 ， 通 常会 考虑 这 个 因素 。” 





16.5 小结 

本 章 讨论 了 反馈 机 制 , 它 使 得 我 们 可 以 在 日 常 工作 的 每 个 阶段 改进 服务 , 不 管 是 将 变更 部 署 
到 生产 环境 ,在 出 现 问题 时 请 求 工程 师 修复 代码 ,让 开发 人 员 跟 踪 下 游 工 作 ， 建 立 非 功能 性 需求 
来 帮助 开发 团队 编写 更 优 的 生产 就 绪 代 码 ， 还 是 将 有 问题 的 服务 交 回 给 开发 团队 自己 管理 。 
通过 创建 这 些 反馈 回路 ， 可 以 使 生产 环境 的 部 署 更 安全 ， 提 高 所 开发 代码 的 生产 就 绪 程 度 ， 
并 且 通 过 强化 共同 的 目标 、 责 任 和 同 理 心 ， 在 开发 和 运 维 团队 之 间 建 立 更 好 的 工作 关系 。 

下 一 章 将 探讨 如 何 通过 迁 测 进行 假设 驱动 的 开发 和 A/B 测试 ,帮助 我 们 实现 组 织 的 目标 并 在 
市 场 中 赢得 胜利 。 
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在 软件 项 目 中 , 开发 人 员 往 往 花 几 个 月 或 几 年 的 时 间 开 发 功能 ， 期间 经 历 多 次 发 布 , 却 从 未 
确认 过 业务 需求 是 否 得 到 了 满足 ， 例 如 某 个 功能 是 否 达 到 了 所 期 望 的 效果 ， 甚 至 是 否 被 用 过 。 


更 糟糕 的 是 , 即使 发 现 了 某 个 功能 没有 达到 预期 的 效果 , 开发 新 功能 的 优先 级 也 可 能 高 于 对 
它 进行 修正 的 优先 级 ,结果 导致 那些 效果 欠 佳 的 功能 永远 也 无 法 实现 预期 的 业务 目标 。Jez 
Humble 指出 :“ 验 证 业务 模式 或 产品 理念 的 最 低 效 的 方法 ,是 构建 完整 的 产品 以 查看 设想 中 的 需 
求 是 否 真实 存在 。” 


在 构建 一 项 功能 之 前 ， 我 们 应 该 严肃 地 问 问 自 己 :“ 应 该 构建 它 吗 ? 理由 是 什么 ” ”然后 开 
展 最 廉价 、 最 快速 的 实验 ,通过 用 户 研究 来 验证 设想 的 功能 能 否 产生 预想 的 业务 成 果 。 我 们 可 以 
使 用 假设 驱动 的 开发 、 客 户 获取 渠道 和 A/B 测试 等 技术 ， 这 些 概念 都 将 在 本 章 中 探讨 。Intuit 公 
司 的 案例 生动 地 说 明了 组 织 如 何 使 用 这 些 技术 来 创建 客户 喜欢 的 产品 、 促 进 组 织 学 习 并 在 市 场 
中 获胜 。 


Intuit 专注 于 构建 业务 和 财务 管理 方面 的 解决 方案 ， 以 简化 小 型 企业 、 消 费 者 和 会 计 专 业 人 
员 的 工作 。2012 年 ，Intuit 有 8500 名 员工 ， 营 业 收 入 为 45 亿美 元 ， 旗 舰 产品 包括 QuickBooks、 
TurboTax、Mint， 以 及 最 近 才 发 布 的 Quicken。" 


Intuit 的 创始 人 Scott Cook 一 直 倡 导 建立 创新 文化 ,鼓励 团队 采用 实验 的 方法 进行 产品 开发 ， 
并 号 召 领导 层 都 支持 这 种 做 法 。 正 如 他 所 说 ;“ 这 与 靠 领 导 层 拍 板 的 做 法 完全 不 同 …… 我 们 强调 
的 是 ， 要 获取 真实 用 户 在 真实 实验 中 的 真实 行为 ， 并 以 此 为 基础 做 出 开发 决策 。” 这 是 典型 的 科 
学 的 产品 开发 方式 。 


Cook 解释 说 ,他 们 需要 的 是 “这 样 一 个 系统 :每 个 员工 都 可 以 进行 快速 的 实验 ……Dan Maurer 
负责 消费 者 部 门 ， 他 们 管理 TurboTax 网 站 。 在 他 接管 后 ， 我 们 一 年 大 约 做 7 次 实验 ”。 









































































































































Q@ 2016 年 ，Intuit 将 Quicken 业务 出 售 给 了 私募 股权 公司 H.ILG 资本 。 
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他 继续 说 :“ 通 过 在 2010 年 积极 地 推行 创新 文化 , 现在 他 们 在 为 期 3 个 月 的 美国 报税 季度 中 
开展 165 次 实验 。 取 得 的 业务 成 果 是 什么 呢 ? 网 站 的 转化 率 上 升 了 50%…… 团 队 成 员 非常 喜爱 这 
种 方式 ， 因 为 现在 他 们 的 创意 可 以 快速 地 投入 市 场 了 。 

除了 网 站 转化 率 的 提升 , 这 个 故事 的 惊人 之 处 还 在 于 , TurboTax 是 在 交易 的 高 峰 期 开展 的 生 


产 环境 实验 。 几 十 年 来 , 尤其 是 在 零售 业 ， 节 假日 期 间 服务 中 断 对 营业 收入 造成 影响 的 风险 是 最 
高 的 ， 所 以 从 10 月 中 旬 到 1 月 中 旬 ， 通 常会 暂停 所 有 的 系统 变更 。 


然而 , 通过 使 软件 部 署 与 发 布 变 得 快速 和 安全 ，TurboTax 团队 进行 了 在 线 用 户 实验 ,， 所 需 的 
生产 环境 变更 都 变 成 了 低 风 险 活动 ， 可 以 在 流量 最 高 的 收入 高 峰 期 开展 。 


显然 ， 这 也 证 明了 一 个 观点 ， 即 最 有 价值 的 实验 时 段 是 业务 高 峰 期 。 如 果 TurboTax 团队 等 
到 4 月 16 日 ， 即 美国 报税 截止 日 期 的 第 二 天 ， 才 去 实施 这 些 变更 ， 那 么 公司 可 能 已 经 失去 了 大 
量 的 潜在 客户 ， 其 至 一 些 老 客户 也 可 能 会 流失 ， 成 为 了 竞争 对 手 的 用 户 。 


越 快 地 实验 、 和 迭代 并 将 反馈 集成 到 产品 或 服务 中 ， 我 们 就 可 以 越 快 地 学 习 和 超越 竞争 对 手 。 
集成 反馈 的 速度 取决 于 部 署 和 发 布 软件 的 能 


Intuit 的 例子 表明 ，TurboTax 团队 能 够 成 功 运用 以 上 实践 并 在 市 场 竞争 中 取胜 。 




























































































17.1 A/B 测试 简 史 


正如 Intuit TurboTax 的 故事 所 体现 的 ， 一 项 极其 强大 的 用 户 研究 技术 是 定义 客户 获取 渠道 并 
执行 AB 测试。 A/B 测试 技术 是 在 直 效 营销 中 率先 使 用 的 ， 它 是 两 大 类 营销 策略 之 一 。 另 一 类 称 
为 大 众 营销 或 品牌 营销 ， 通 常 通过 向 公众 投放 尽 可 能 多 的 广告 来 影响 人 们 的 购买 决策 。 


在 电子 邮件 和 社交 媒体 出 现 之 前 , 直 效 营销 意味 着 通过 邮寄 的 方式 发 出 数 以 千 计 的 明信片 或 
传单 ， 并 要 求 潜在 客户 拨打 电话 号 码 、 寄 回 明信片 或 者 直接 下 订单 的 方式 接受 报 盘 。 


在 这 些 营销 活动 中 ， 通 过 做 实验 来 确定 哪 种 形式 的 转化 率 最 高 。 他 们 尝试 修改 和 调整 报价 、 
重新 报价 、 改 进 文案 的 风格 、 设 计 、 排 版 和 包装 等 ， 从 而 确定 哪 种 方式 能 最 有 效 地 产生 预期 的 行 
动 (例如 ， 回 拨 销 售 热线 电话 、 订 购 产品 )。 

通常 ,每 个 实验 都 需要 重新 做 一 次 设计 和 印刷 , 再 将 成 千 上 万 份 产品 报 盘 邮寄 出 去 , 然后 等 
待 儿 个 星期 之 后 反馈 回来 ,每 次 实验 通常 花费 数 万 美元 ,并且 和 需要 儿 周 或 儿 个 月 的 时 间 才 能 完成 。 
然而 ， 尽管 有 一 定 的 开销 ,但 如 果 转 换 率 显著 地 提高 了 ( 例如， 订购 产品 者 从 3% 增 加 到 12% )， 
前 几 轮 测试 也 是 很 容易 得 到 回报 的 。 


有 良好 文档 记录 的 A/B 测试 案例 包括 竞选 筹 款 、 互 联网 营销 和 精益 创业 方法 论 。 有 意思 的 是 ， 
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英国 政府 也 采用 A/B 测试 来 确定 哪些 信件 能 最 有 效 地 收回 逾期 税收 。” 





17.2 ”在 功能 测试 中 集成 A/B 测试 


在 现代 用 户 体验 实践 中 , 最 常用 的 A/B 测试 技术 是 , 在 一 个 网 站 上 , 给 访问 者 随机 地 展示 一 
个 页 面 的 两 个 版 本 之 一 ， 即 控制 组 (A ) 或 实验 组 (B )。 基于 对 这 两 组 用 户 后 续 行为 的 统计 分 析 ， 
可 以 判断 这 两 者 的 结果 是 否 存 在 显著 差异 ， 从 而 找 出 实验 组 ( 例如 ,功能 的 变化 、 设 计 元 素 、 背 
景 颜色 ) 和 结果 ( 例如 ， 转 化 率 、 平 均 订单 大 小 ) 之 间 的 因果 联系 。 


例如 ,我 们 可 以 通过 一 项 实验 , 看 看 改变 “购买 ”按钮 上 的 文字 或 颜色 是 否 会 增加 收入 , 或 
者 减 慢 网 站 的 响应 速度 ( 故意 给 实验 组 制造 延迟 ) 是 否 会 造成 收入 降低 。 这 种 类 型 的 A/B 测试 让 
我 们 在 性 能 优化 方面 建立 了 金钱 价值 观 。 


有 时 ，A/B 测试 也 称 为 在 线 控制 实验 和 拆 分 测试 。 在 实验 的 过 程 中 还 支持 多 个 变量 ， 从 而 观 
察 变 量 之 间 的 相互 作用 ， 这 种 技术 称 为 多 变量 测试 。 


A/B 测试 通常 会 带 来 惊人 的 结果 。 微软 分 析 与 实验 小 组 的 杰出 工程 师 兼 总 经 理 Ronny Kohavi 
指出 :“ 在 评 佑 旨 在 提高 关键 指标 的 设计 良好 且 良 好 执行 的 实验 后 ， 只 有 约 三 分 之 一 的 功能 成 功 
地 提升 了 关键 指标 !” 换 句 话说， 其 他 三 分 之 二 的 功能 所 产生 的 影响 可 以 忽略 不 计 ， 甚 至 会 使 情 
况 变 得 更 糟 。Kohavi 继续 指出 , 这 些 功能 最 初 都 被 认为 是 合理 的 好 想法 ,而 测试 结果 进一步 提升 
了 对 用 户 测试 的 需求 ， 而 这 种 需求 高 于 直觉 和 专家 意见 。 


Kohavi 数据 的 意义 是 令 人 吃惊 的 。 如 果 不 进行 用 户 研究 , 那么 我 们 构建 的 三 分 之 二 的 功能 对 
组 织 的 价值 很 可 能 为 零 或 者 为 负 ， 因 为 它们 增加 了 代码 的 复杂 度 ， 而 随 着 时 间 的 推移 ,应 用 维护 
的 成 本 将 增加 ,软件 也 变 得 更 加 难以 修改 。 此 外 , 构建 这 些 功能 往往 是 以 牺牲 真 正 有 价值 的 功能 
( 机 会 成 本 ) 为 代价 的 。Jez Humble 开玩笑 说 :“ 极 端 地 说 ， 与 其 构建 这 些 没有 价值 的 功能 ， 还 不 
如 让 整个 团队 好 好 地 度 个 假 ， 这 样 对 组 织 和 客户 而 言 反而 更 好 。 


我 们 的 对 策 是 将 A/B 测试 整合 到 设计 、 实 现 、 测 试 和 部 署 功 能 的 过 程 中 。 通 过 进行 有 意义 的 
用 户 研 究 和 实验 ， 确 保 我 们 的 努力 有 助 于 实现 客户 和 组 织 的 目标 ， 并 能 帮助 我 们 说 得 市 场 。 



























































































































































17.3 在 发 布 中 集成 A/B 测试 
通过 在 生产 环境 中 快速 轻松 地 按 需 部 署 , 利用 特性 开关 将 软件 的 多 个 版 本 同时 交付 给 多 个 用 



































Qa 在 进行 产品 研发 以 前 , 还 有 许多 其 他 进行 用 户 研究 的 方式 。 最 廉价 的 方法 包括 进行 调查 、 创 造 原型 ( 使 用 Balsamiq 
等 工具 进行 模拟 ， 或 使 用 代码 编写 的 可 交互 版 本 ) 以 及 进行 可 用 度 测试 。 谷 歌 的 工程 总 监 Alberto Savoia 创造 了 
“原型 法 ”这 个 术语 ， 指 的 是 通过 原型 来 验证 当前 是 否 在 创造 正确 的 东西 。 相 对 于 编码 实现 一 个 无 用 的 功能 ,用 

户 研究 非常 廉价 而 且 容易 实现 。 所 以 ， 几 乎 在 任何 情况 下 ， 都 不 应 该 未 经 验证 就 设置 功能 的 优先 级 。 
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户 群 ， 可 以 进行 快速 、 迭 代 的 AB 测试 。 要 实现 这 一 点 ， 需 要 在 应 用 程序 栈 的 各 个 层次 上 进行 全 
面 的 生产 环境 遥测 。 


通过 勾 选 特性 开关 中 的 选项 ,可 以 控制 能 看 到 实验 组 版 本 的 用 户 比 例 。 例如 ,可 以 让 一 半 的 
客户 成 为 实验 组 ， 向 其 显示 “与 购物 车 中 失效 商品 相似 商品 的 链接 ”"。 在 实验 中 ， 我 们 对 比 控制 
组 (无 选择 ) 和 实验 组 (有 选择 ) 的 用 户 行为 ， 可 能 是 衡量 在 此 期 间 的 购买 数 。 


Etsy 开源 了 他 们 的 实验 框架 Feature API ( 以 前 称 为 Etsy A/B API )， 它 不 仅 支 持 A/B 测试 ， 
还 支持 在 线 调 整 ， 能 对 实验 组 进行 限 流 。 其 他 具有 A/B 测试 功能 的 软件 产品 包括 Optimizely、 
Google Analytics 等 。 




















在 2014 年 接受 Apptimize 的 Kendrick Wang 的 采访 时 , Etsy 的 Lacy Rhoades 描述 了 他 们 的 旅 
程 :“ 在 Etsy， 实 验 的 目的 是 做 出 明智 的 决策 ， 确 保 向 数 百 万 的 会 员 推出 可 用 的 功能 。 我 们 经 稼 
在 一 些 功 能 上 投入 了 大 量 时 间 , 而 且 不 得 不 维护 , 但 没有 证 据 表 明 它 们 是 成 功 的 或 者 受到 了 用 户 
的 欢迎 。A/B 测试 让 我 们 可 以 在 开发 过 程 中 就 判断 一 项 功能 是 否 值得 继续 投入 。” 









































17.4 ”在 功能 规划 中 集成 A/B 测试 
一 旦 拥有 了 支持 A/B 功能 发 布 和 测试 的 基础 设施 ,我 们 还 必须 确保 产品 经 理 将 每 个 功能 都 视 
为 一 个 假设 , 并 基于 在 生产 环境 中 实际 的 用 户 实验 结果 来 证 明 或 反驳 这 些 假 设 。 构建 实验 应 该 在 
客户 获取 渠道 的 整个 背景 下 设计 。《 精 益 企 业 : 高 效能 组 织 如何 规 模 化 创新 》 的 合 著者 Barry 
O’Reilly 描述 了 在 功能 开发 中 如 何 通过 如 下 形式 构建 假设 : 
我 们 相信 ， 增 大 预订 页 面 上 酒店 图 片 的 大 小 
将 会 提升 客户 的 参与 度 和 转化 率 


如 果 在 48 小 时 内 查看 酒店 图 片 并 预订 房间 的 客户 增加 了 5%, 我 们 将 有 信心 进行 这 
个 改变 。 
采用 实验 的 方法 进行 产品 开发 ， 不 但 需要 将 工作 分 解 成 更 小 的 单元 ( 故事 或 需求 )， 而 且 还 
要 验证 每 个 工作 单元 是 否 能 够 实现 预期 的 结果 。 如 果 没 有 达到 预期 ， 就 用 替代 方案 修改 工作 路 线 
图 ， 并 最 终 实现 业务 成 果 。 






































* 案例 研究 * 
快速 的 发 布 周期 实验 使 Yahool Answers 收入 翻番 (2010) 


越 快 地 和 迭代 并 将 反馈 集成 到 向 客户 提供 的 产品 或 服务 中 ,学 习 的 速度 就 越 快 ,产生 
的 影响 也 越 大 。Yahoo! Answers 的 案例 证 明了 更 快 的 迭代 周期 能 显著 地 影响 结果 。 他 们 
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经 历 了 从 每 六 周 发 布 一 次 到 每 周 发 布 多 次 的 改变 。 


2009 年 ，Jim Stoneham 是 Yahoo! Communities 小 组 ( 包括 Flickr 和 Answers ) 的 总 
经 理 。 之 前 , 他 主要 负责 Yahoo! Answers , 与 其 他 问答 公司 进行 竞争 , 如 Quora、 Aardvark 
和 Stack Exchange 等 。 


当时 ，Answers 每 月 的 访问 者 将 近 1.4 亿 ,其 中 有 2000 多 万 活跃 用 户 , 他们 使 用 20 
多 种 不 同 的 语言 回答 问题 。 然 而, 用 户 增长 和 收入 已 经 进入 瓶颈 期 ,用 户 参 与 度 在 下 降 。 


Stoneham 说 : “Yahoo! Answers 曾 是 并 仍然 是 互联 网 上 最 大 的 社交 游戏 之 一 。 数 千 
万 的 用 户 在 积极 地 以 比 社区 其 他 成 员 更 快 的 速度 为 问题 提供 优质 答案 ， 以 期 获得 “ 升 
级 。 网 站 有 很 多 机 会 去 调整 游戏 机 制 、 病 毒 式 营销 以 及 与 其 他 社区 的 交互 。 在 处 理 这 
些 人 类 行为 时 ， 你 必须 能 进行 快速 的 迭代 和 测试 ， 以 便 发 现 大 家 喜欢 什么 。 


他 继续 说 道 :“Twitter、Facebook 和 Zynga 在 实验 方面 做 得 非常 好 。 这 些 组 织 每 周 
至 少 进行 两 次 实验 ， 他 们 甚至 在 部 署 之 前 还 在 审核 要 做 的 变更 ， 以 确保 没有 偏离 正轨 。 
因此 ,在 这 个 互联 网 上 最 大 的 问答 网 站 里 ,我 们 也 想 进行 快速 迭代 的 功能 测试 , 但 是 我 
们 最 快 四 周 才 能 发 布 一 次 。 相 比 之 下 ,市场 上 其 他 人 的 反馈 回路 比 我 们 快 了 10 倍 。” 


Stoneham 发 现 , 就 像 产 品 经 理 和 开发 人 员 谈 论 指 标 驱 动 一 样 ， 如 果 不 能 频繁 地 (每 
天 或 每 周 ) 进行 实验 ,日 常 工作 的 重点 就 只 能 放 在 功能 开发 而 不 是 客户 成 果 上 了 。 


由 于 Yahoo!l Answers 团队 能 够 做 到 每 周 部 署 一 次 ， 之 后 又 提升 到 了 每 周 部 署 多 次 ， 
他 们 实验 新 功能 的 能 力 显著 增强 。 在 随后 12 个 月 的 实验 中 ， 他 们 取得 了 惊人 的 成 果 ， 
包括 月 访问 量 上 升 了 72%， 用 户 参与 度 提升 了 3 信 ， 业 务 收 入 翻 了 一 番 。 为 了 继续 扩大 
战果 ， 该 团队 专注 于 优化 以 下 几 个 最 重要 的 指标 。 


口 首次 回答 时 间 : 回答 一 个 用 户 问 题 的 速度 有 多 快 ? 

口 最 佳 答案 时 间 : 用 户 社区 给 出 最 佳 答案 的 速度 有 多 快 ? 

口 答案 点 先 数 : 一 个 答案 被 用 户 社区 点 赞 的 次 数 ? 

口 回答 次 数 / 周 /人 : 用 户 创建 了 多 少 个 答案 ? 

口 二 次 搜索 率 : 访问 者 需要 二 次 搜索 以 获得 答案 的 频率 ” ( 越 低 越 好 ) 





Stoneham 总 结 说 :“ 这 正 是 我 们 为 了 赢得 市 场 需要 学 习 的 ， 而 且 它 不 止 改变 了 我 们 
推出 功能 的 速度 。 我 们 的 心态 也 从 打工 者 转变 成 了 企业 的 主人 。 当 你 以 这 种 速度 运转 ， 
并 且 每 天 都 看 各 种 数字 和 结果 时 ， 你 的 投资 水 平 会 发 生根 本 性 的 变化 。” 
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17.5 ”小结 


成 功 不 但 需要 快速 地 部 署 和 发 布 软件 , 还 要 在 实验 方面 超越 竞争 对 手 。 采 用 假设 驱动 的 开发 、 
定义 和 度量 客户 获取 渠道 , 以 及 A/B 测试 等 技术 ,能够 安全 、 轻 松 地 进行 用 户 实验 ,从 而 让 员工 
发 挥 出 创造 力 和 创新 能 力 ， 并 进行 组 织 性 学 习 。 虽然 成 功 很 重要 , 但 源 于 实验 的 组 织 性 学 习 也 能 
证 员工 积极 主动 地 去 实现 业务 目标 和 客户 满意 度 。 下 一 章 将 通过 研究 和 创建 评审 和 协作 流程 , 来 
提高 当前 工作 的 质量 。 




















建立 评审 和 协作 流程 以 提升 
当前 工作 的 质量 











在 前 面 的 章节 中 , 我 们 建立 了 必要 的 遥测 机 制 , 用 来 在 生产 环境 和 部 署 流水 线 的 所 有 阶段 中 
监控 和 解决 问题 。 同 时 ,建立 了 快速 的 端 到 端的 反馈 回路 来 帮助 强化 组 织 学 习 ， 鼓励 主动 提升 客 
户 满意 度 和 功能 表现 ， 进 而 帮助 我 们 取得 成 功 。 


本 章 的 目标 是 帮助 开发 人 员 和 运 维 人 员 在 实施 生产 环境 变更 前 降低 变更 的 风险 。 按 照 传 统 的 
做 法 ， 当 我 们 评审 将 要 部 署 的 变更 时 ,往往 主要 依赖 部 署 之 前 的 评审 、 审 核 和 审批 环节 。 审 批 者 
通常 来 自 外 部 团队 ,他 们 对 实际 工作 不 了 解 ， 所 以 其 实 无 法 准确 评判 变更 是 否 有 风险 ,而 且 为 了 
获得 全 部 必要 的 审批 需要 花费 不 少时 间 ， 这 进一步 延长 了 变更 的 交付 时 间 。 


GitHub 的 同行 评审 流程 是 一 个 典型 的 范例 ， 它 说 明了 评审 是 怎样 提高 代码 质量 、 使 部 署 更 
安全 的 ， 以 及 如 何 将 其 融合 进 每 个 人 的 日 常 工作 流程 中 。 他 们 创建 了 一 种 称 为 Pull Request 的 流 
程 ， 这 也 是 在 开发 和 运 维 团 队 中 最 为 流行 的 一 种 同行 评审 形式 ( 见 图 18-1 )。 


GitHub 的 首席 信息 官 和 联合 创始 人 Scott Chacon 在 他 的 网 站 上 写 道 ，Pull Request 是 这 样 一 
种 机 制 : 让 工程 师 告诉 其 他 所 有 人 , 他 向 GitHub 上 的 仓库 推送 了 一 些 代码 变更 。 一 旦 提交 了 Pull 
Request， 相 关 人 员 就 能 评审 所 有 的 代码 变更 ， 讨 论 可 能 的 修改 ， 甚 至 在 必要 时 推进 后 续 行 动 。 
提交 Pull Request 的 工程 师 通 常会 请 求 大 家 投票 ,例如 在 评论 中 回复 “+1”“+2” 等 , 具体 取决 于 
他 们 需要 多 少 评论 ， 又 或 者 使 用 “@ 评 审 人 ”的 形式 通知 他 们 所 希望 的 工程 师 来 评审 。 

在 GitHub，Pull Request 也 用 来 通过 他 们 称 为 “GitHub Flow” 的 一 套 实 践 ， 将 代码 部 署 到 生 
产 环境 中 。 这 套 实践 包括 工程 师 如 何 请 求 代 码 评审 、 收 集 和 集成 反馈 ,并 最 终 确 定 代码 将 会 部 署 
到 生产 环境 (例如 “主干 ”分 文 )。 
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27 上 opts[:options] [:stripnl] | | = false 
35 28 
36 29 timeout opts.delete(:timeout) || DEFAULT_TIMEOUT do 
azulles0 Pi 
38 31 Pygments.highlight(text, opts) 


@ brianmario TS < 


So what are the defaults here if no encoding or lexer is passed? 


Also there’s at least one other place where the APl is expected to take an :encoding key 
(not nested under an :options key/hash) - 
https://github.com/github/github/blob/master/app/models/gist.rb#L114 


Only reason | did it that way was to sorta abstract the fact that we’re using pygments for 
colorizing currently (not that we have plans to change that anytime soon...) 


@ Yesh Re El, 


Alright, Mll push that down to colorize. 


Add a line note 


图 18-1 ”GitHub 中 一 个 Pull Request 的 评论 和 建议 








(来 源 : Scott Chacon 于 2011 年 8 月 31 日 在 ScottChacon.com 上 发 表 的 博客 文章 “GitHub Flow”， 
http://scottchacon.com/2011/08/31/github-flow.htm!l ) 


GitHub Flow 由 如 下 5 个 步骤 组 成 。 
(1) 工程 师 为 了 实现 一 项 新 功能 需求 ， 要 基于 主干 建立 一 个 命名 清晰 的 分 支 (例如 ，new- 


oauth2-scopes )。 

(2) 工程 师 提交 代码 到 本 地 分 支 ， 并 定期 将 工作 成 果 推 送 到 远 端 服务 器 的 同名 分 支 上 。 

(3) 当 他 们 需要 反馈 或 帮助 时 ， 或 者 准备 将 这 个 分 支 的 代码 合并 到 主干 时 ， 就 会 提交 一 个 新 
的 Pull Request。 

(4) 在 他 们 获得 期 望 的 评审 并 通过 必要 的 审核 后 ， 就 可 以 将 代码 合并 到 主干 了 。 

(5) 一 旦 将 代码 变更 合并 进 了 主干 ， 工 程 师 就 可 以 将 其 部 署 到 生产 环境 了 。 

这 些 做 法 将 代码 评审 和 团队 协作 融入 日 常 工作 中 ， 因 此 GitHub 可 以 快速 、 安 全 地 向 市 场 交 
付 高 质量 且 可 靠 的 功能 。 例 如 ，2012 年 ，GitHub 进行 了 数量 惊人 的 12 602 次 部 署 。 特 别 是 在 8 
月 23 日 ( 即 在 全 公司 范围 的 峰会 召开 之 后 ， 峰 会 上 头脑 风暴 并 讨论 了 很 多 令 人 兴奋 的 想法 ), 公 
司 迎 来 了 史上 最 繁忙 的 一 天 ， 执行 了 563 次 构建 ,成 功 地 在 生产 环境 中 部 署 了 175 次 一 一 是 Pull 
Request 使 这 一 切 成 为 可 能 。 


本 章 会 将 诸如 GitHub 的 实践 整合 到 日 常 工作 中 ， 我 们 将 摆脱 对 定期 检查 和 审批 的 依赖 ， 用 
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不 间断 的 同行 评审 取而代之 。 我 们 的 目标 是 确保 开发 人 员 、 运 维 人 员 和 信息 安全 人 员 始终 紧密 协 
作 ， 从 而 使 系统 所 做 的 变更 可 靠 、 安 全 、 符 合 设计 。 





18.1 变更 审批 流程 的 危险 


Knight Capital 的 宕 机 事件 是 近期 最 突出 的 软件 部 署 事故 之 一 。15 分 钟 的 部 署 事 故 造成 了 4.4 
亿美 元 的 交易 损失 ， 在 此 期 间 工程 团队 也 无 法 终止 生产 服务 。 财 务 损失 使 公司 的 运营 陷入 困境 。 
为 了 继续 经 营 下 去 ， 避 免 危 及 整个 金融 系统 ， 该 公司 在 一 周 之 后 被 迫 出 售 。 


John Allspaw 发 现 ， 当 发 生 像 Knight Capital 部 署 事故 这 样 备 受 瞩目 的 事件 时 ,对 于 事故 发 生 
的 原因 通常 有 两 种 反 事实 的 叙述 。” 


第 一 种 叙述 是 : 此 次 事故 是 由 于 变更 控制 失效 导致 的 。 这 听 起 来 很 合理 , 因为 我 们 可 以 想象 ， 
如 果 采 用 更 好 的 变更 控制 实践 ， 就 能 够 更 早 地 识别 出 风险 ,并 阻止 将 变更 部 署 到 生产 环境 。 如 果 
我 们 无 法 阻止 部 署 ， 则 可 以 采取 其 他 措施 实现 更 快 的 检测 和 恢复 。 


第 二 种 叙述 是 : 此 次 事故 是 由 于 测试 失败 导致 的 。 这 似乎 也 有 道理 ,因为 通过 更 完备 的 测试 
实践 , 就 可 以 更 早 地 发 现 风险 , 并 取消 这 次 有 风险 的 部 署 ， 或 者 至 少 可 以 采取 茶 些 措施 来 实现 更 
快 的 检测 和 恢复 。 


但 现实 是 , 在 低 信 任 度 的 指挥 与 控制 型 文化 环境 中 , 这 些 变更 控制 和 测试 实践 反而 会 增加 问 
题 复发 的 几率 ， 甚 至 造成 更 严重 的 后 果 。 


GeneKim ( 本 书 作者 之 一 ) 描述 了 他 的 见解 ， 即 变更 和 测试 控制 可 能 具有 与 “我 的 职业 生涯 
中 最 重要 的 时 刻 之 一 ”相反 的 效果 。 “我 是 在 2013 年 与 John Allspaw 和 Jez Humble 谈论 Knight 
Capital 事故 时 意识 到 这 一 点 的 。 这 让 我 对 过 去 10 年 中 形成 的 一 些 核心 信念 产生 了 怀疑 ， 尤 其 是 
作为 受过 培训 的 审计 员 。” 

他 继续 说 道 :“ 虽 然 令 人 心烦 意 乱 ， 可 是 这 对 我 来 说 也 是 个 非常 关键 的 时 刻 。 他 们 不 但 说 服 
了 我 他 们 是 正确 的 ,我 们 还 用 《2014 年 DevOps 现状 报告 》 测 试 了 这 些 信 念 ， 并 发 现 了 一 些 令 人 
惊讶 的 结果 ， 再 次 强化 了 建设 高 度 信任 的 文化 可 能 是 未 来 10 年 最 大 的 管理 挑战 。 


18.2 “过 度 控 制 变 更 ”的 潜在 危险 


传统 的 变更 控制 可 能 会 导致 意 想不到 的 后 果 , 例如 延长 交付 时 间 , 降低 部 署 过 程 中 反馈 的 强 
度 和 即时 性 。 为 了 更 好 地 理解 这 是 怎么 发 生 的 , 我 们 回顾 一 下 在 变更 控制 失败 发 生 时 通常 正在 实 
施 的 控制 。 






































































































































GD 反 事 实 思维 是 心理 学 术语 ， 指 人 们 往往 针对 已 经 发 生 的 生活 事件 创建 其 他 可 能 的 叙述 。 在 可 靠 性 工程 中 ， 反 事实 
思维 通常 涉及 对 “想象 中 系统 ”而 非 “现实 系统 ”的 叙述 。 
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口 在 变更 请 求 表单 中 添加 更 多 需要 回答 的 问题 。 

口 经 过 更 多 重 授权 ， 例 如 多 加 一 级 管理 层 〈 例如 不 但 要 运营 副 总 裁 批 准 ， 还 需要 首席 信息 
官 的 批准 ) 或 更 多 利益 干系 人 例如 网 络 工 程 、 架 构 评 审 员 会 等 ) 的 审批 。 

口 变更 审批 需要 更 长 的 前 置 时 间 ， 这 样 变 更 请 求 才能 被 适当 地 评估 。 


这 些 控制 带 来 了 大 量 额 外 的 步骤 和 审批 , 增加 了 部 署 过 程 的 阻力 , 同时 增加 了 批量 尺寸 和 部 
署 的 前 置 时 间 。 我 们 知道 ， 对 于 开发 和 运 维 来 说 ,这 降低 了 收获 成 功 的 工作 成 果 的 可 能 性 。 这 些 
控制 也 降低 了 我 们 获得 反馈 的 速度 。 


丰田 生产 系统 的 核心 理念 之 一 是 “最 了 解 问题 的 人 通常 是 离 问 题 最 近 的 人 ”。 随 着 工作 和 工 
作 系统 变 得 越 来 越 复杂 和 动态 一 一 这 在 DevOps 的 价值 流 中 是 很 典型 的 ， 这 个 道理 就 越发 显 而 易 
见 。 在 这 种 情况 下 , 让 距离 工作 越 来 越 远 的 人 来 做 相关 审批 的 步骤 ,这 实际 上 可 能 会 降低 工作 成 
功 的 概率 。 就 像 之 前 就 已 经 证 明 过 的 一 样 ， 开 展 工作 的 人 即 变更 实施 者 ) 和 决定 做 这 项 工作 的 
人 【〔 即 变更 授权 人 ) 之 间 的 距离 越 远 ， 审 批 流程 的 结果 就 越 差 。 
在 Puppet Labs 发 布 的 《2014 年 DevOps 现状 报告 》 中 ， 一 项 主要 的 发 现 是 高 绩效 组 织 更 多 
地 依赖 同行 评审 ， 更 少 地 依赖 外 部 变更 批准 。 如 图 18-2 所 示 ， 组 织 越 依 赖 变 更 审批 ， 它 在 稳定 
性 (平均 服务 恢复 时 间 和 更 改 失败 率 ) 和 吞吐 量 (部署 前 置 时 间 、 部 署 频率 ) 方面 的 表现 就 越 差 。 
IT 变更 的 效能 
变更 同行 评审 与 变更 审批 


随 着 组 织 更 多 地 使 用 同行 评审 
(而 不 是 变更 审批 ) …… 



















































































IT 效能 逐步 提升 


IT 变更 的 效能 





刀 - 使 用 变更 审批/ 使 用 同行 评审 ”一 一 
图 18-2 使 用 同行 评审 的 组 织 优 于 使 用 变更 审批 的 组 织 


(来 源 ，Puppet Labs 2014 年 的 DevOps 实践 调查 ) 


在 许多 组 织 中 ， 变 更 咨询 委员 会 在 IT 服务 交付 过 程 中 发 挥 着 重要 的 协调 和 管理 职能 ， 但 
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他 们 的 工作 不 应 该 是 手动 评估 每 一 个 变更 ，ITIL 中 也 不 强制 要 求 这 样 做 。 


为 了 理解 为 什么 是 这 样 , 就 要 考虑 一 下 变更 咨询 委员 会 所 处 的 困境 。 他 们 通常 评审 的 变更 是 
非常 复杂 的 ， 可 能 和 数 百 名 工程 师 做 的 数 十 万 行 代码 变更 相关 。 


一 方面 ， 只 是 通过 审阅 变更 单 中 一 百 多 字 的 变更 描述 , 或 者 核对 某 个 清单 是 否 已 经 完成 ,是 
不 可 能 准确 地 预测 出 变更 是 否 会 成 功 的 。 另 一 方面 ， 当 评审 的 变更 有 关于 数 千 行 的 代码 变更 , 尤 
其 是 当 变更 发 生 在 复杂 的 系统 内 时 , 评审 很 难得 出 新 的 见解 。 即 便 是 那些 每 天 都 工作 在 代码 库 上 
的 工程 师 们 ， 也 经 常 对 那些 低 风 险 变 更 所 带 来 的 负 作用 而 感到 谋 异 。 


出 于 上 述 所 有 原因 , 我 们 需要 创建 的 控制 实践 应 该 更 类 似 于 同行 评审 , 减少 对 外 部 相关 组 织 
变更 授权 的 依赖 ,此 外 还 需要 有 效 地 协调 和 安排 变更 相关 的 活动 ,在 接 下 来 的 两 节 中 将 具体 探讨 。 

































































18.3 ”变更 的 协调 和 排 程 


每 当 多 个 团队 在 共享 依赖 关系 的 系统 上 工作 时 , 就 可 能 需要 协调 变更 , 以 确保 它们 不 会 相互 
干扰 ( 例如， 编组 、 批 处 理 和 变更 的 排 程 )。 一般 来 说 ， 组 织 的 架构 越 是 松 辜 合 ， 组 件 团 队 之 间 
需要 沟通 和 协调 的 事情 就 越 少 。 当 系统 架构 真正 做 到 了 以 服务 为 导向 时 , 每 个 团队 就 可 以 进行 高 
度 目 主 的 变更 了 ， 因 为 局 部 的 变更 不 太 可 能 造成 全 局 的 中 断 。 


然而 ,即使 是 在 松 耦合 的 架构 里 ， 当 多 个 团队 每 天 进行 数 百 个 独立 的 部 署 时 ， 变 更 彼此 干扰 
的 风险 (例如 ,同时 进行 的 AB 测试 ) 可 能 依然 存在 。 为 了 降低 这 些 风 险 , 我 们 可 能 会 使 用 聊天 
室 的 方式 ， 发 布 变更 通告 ， 并 主动 地 搜索 可 能 存在 的 冲突 。 


对 于 复杂 的 组 织 , 以 及 系统 架构 耦合 程度 高 的 组 织 来 说 , 我 们 可 能 需要 更 加 小 心地 来 安排 变 
更 。 各 个 团队 的 变更 代表 要 至 在 一 起 , 他 们 并 不 是 做 变更 授权 , 而 是 做 变更 工作 的 排 程 和 序列 化 ， 
目的 是 最 小 化 事故 风险 。 


然而 ， 在 某 些 领域 ， 诸 如 底层 基础 设施 变更 〈 例如 核心 网 络 交换 机 变更 )， 将 总 是 伴随 着 较 
高 的 风险 。 这 类 变更 将 始终 需要 技术 性 的 保障 措施 ， 如 宛 余 备 份 系统 、 故 障 切换 、 综 合 测试 和 变 
更 模拟 ( 理想 情况 下 )。 

















































































































18.4 变更 的 同行 评审 


与 在 部 署 之 前 需要 外 部 组 织 的 审批 不 同 , 同行 评审 是 要 求 工 程 师 请 同行 对 他 们 的 变更 进行 评 
审 。 在 开发 中 ,这 种 实践 被 称 为 代码 评审 , 但 它 同样 适用 于 对 应 用 程序 或 环境 ( 包括 服务 器 、 网 
络 和 数据 库 ) 进行 的 任何 变更 。" 同 行 评审 的 目标 是 通过 工程 师 同事 的 仔细 核查 来 减少 变更 错误 。 





















































Qa 在 本 书 中 ， 术 语 代码 评审 和 变更 评审 将 交替 使 用 。 
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这 种 形式 的 评审 不 仅 提高 了 变更 的 质量 , 还 相当 于 进行 了 交叉 培训 , 对 互相 学 习 和 技能 提升 非常 
有 好 处 。 


进行 同行 评审 的 合理 时 机 , 是 将 代码 向 版 本 控制 系统 中 的 主干 提交 时 ,这 个 时 候 变更 可 能 会 
影响 到 整个 团队 , 或 者 造成 全 局 影响 。 至少, 工程师 同 事 应 该 审核 我 们 的 变更 , 但 是 对 于 风险 更 
高 的 领域 , 例如 数据 库 变 更 , 或 者 在 自动 化 测试 覆盖 率 不 高 的 情况 下 对 业务 的 关键 组 件 进行 变更 ， 
可 能 就 需要 领域 专家 ( 例如 信息 安全 工程 师 、 数 据 库 工 程 师 ) 做 进一步 的 审查 , 或 者 做 多 重 评 审 
(例如 ， 用 “+2” 做 评论 ， 而 不 是 “+1” )。 


保持 小 批量 尺寸 的 原则 也 适用 于 代码 评审 。 变更 的 批量 越 大 , 评审 工程 师 理解 这 些 工 作 需 要 
花费 的 时 间 就 越 长 ， 他 们 的 负担 也 越 大 。 正 如 Randy Shoup 所 说 :“ 变 更 的 批量 与 整合 这 个 变更 
的 潜在 风险 之 间 存 在 着 非 线 性 的 关系 一 一 从 10 行 代码 的 变更 到 100 行 代码 的 变更 ,发生 错误 的 
风险 不 止 高 出 10 倍 ,等 等 。” 这 就 是 开发 人 员 要 以 小 的 、 渐 进 式 的 步骤 工作 ， 而 不 应 在 功能 分 支 
里 长 时 间 工 作 的 原因 。 


此 外 ， 随 着 变更 尺寸 的 增加 ， 我 们 对 代码 变更 进行 有 意义 的 评判 的 能 力也 随 之 下 降 。 正 如 
Giray Ozil 在 Twitter 上 所 说 的 :“ 请 程序 员 来 审查 10 行 代码 ， 他 会 找到 10 个 问题 。 请 他 审查 500 
行 代 码 ， 他 会 说 看 起 来 都 不 错 。” 


代码 评审 的 指导 原则 如 下 。 


口 每 个 人 在 将 代码 提交 到 主干 以 前 , 必须 要 有 同行 来 评审 他 们 的 变更 (例如 代码 、 环 境 等 )。 

口 每 个 人 都 应 该 持续 关注 其 他 成 员 的 提交 活动 ， 以 便 识别 和 审查 出 潜在 的 冲突 。 

口 定义 哪些 变更 属于 高 风险 的 变更 ， 从 而 决定 是 否 需 要 请 领域 专家 (例如 数据 库 变 更 、 安 

全 性 敏感 的 身份 验证 模块 等 ) 来 进行 审查 。” 

口 如 果 提 交 的 变更 尺寸 太 大 了 ， 以 至 于 让 人 很 难 理解 一 一 换 句 话说 ， 阅 读 了 几 遍 代码 还 无 
法 理解 ， 或 者 需要 提交 者 进行 解释 一 一 那么 这 个 变更 就 需要 分 解 成 多 个 较 小 的 变更 来 提 
交 ， 使 之 一 目 了 然 。 

为 了 避免 形式 主义 的 评审 , 可 能 还 要 检查 一 下 代码 评审 的 统计 数据 ， 从 而 确定 有 和 多少 个 代码 
提交 通过 了 评审 ， 有 和 多少 个 没有 通过 ， 也 可 以 对 特定 的 代码 评审 进行 抽样 和 检查 。 

代码 评审 有 如 下 几 种 形式 。 
口 结对 编程 : 程序 员 结 对 地 在 一 起 工作 ( 见 下 节 )。 
口 “ 肩 并肩 ”: 在 一 名 程序 员 编 写 了 一 段 代码 后 ， 评 审 程序 员 接 着 就 逐 行 阅 读 他 的 代码 。 


口 电子 邮件 送审 : 在 代码 被 签 人 到 代码 管理 系统 中 后 ， 系 统 就 立刻 自动 向 评审 者 们 邮寄 一 
份 代 码 。 

















































































































中 顺便 说 一 下 ， 变 更 咨询 委员 会 很 可 能 已 经 创建 了 高 风险 代码 和 环境 相关 的 列表 。 
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口 工具 辅助 评审 : 编码 者 和 审阅 者 都 使 用 专门 用 于 代码 评审 的 工具 ( 例如 ，Gerrit、GitHub 
的 Pull Request 等 ) 或 由 源 代码 仓库 (例如 ，GitHub 、Mercurial 、Subversion， 以 及 Gerrit、 
Atlassian Stash 和 Atlassian Crucible 等 其 他 平台 ) 提供 的 类 似 功能 。 


通过 对 变更 进行 各 种 形式 的 仔细 检查 , 有 助 于 发 现 那 些 曾经 忽视 的 错误 。 代码 评审 还 可 以 辅 
助 增 量 代码 的 提交 和 生产 环境 部 署 , 并 支持 基于 主干 的 部 署 和 大 规模 持续 交付 。 我 们 将 在 下 面 的 
案例 研究 中 看 到 这 些 作 用 。 



























































* 案例 研究 * 
谷歌 的 代码 评审 〈2010) 


谷歌 就 是 一 个 采用 基于 主干 的 开发 并 进行 大 规模 持续 交付 的 最 佳 案 例 。 就 像 本 书 前 
面 指出 的 ，Eran Messeri 描述 道 ，2013 年 ， 谷 歌 的 开发 流程 允许 13 000 多 名 开发 人 员 在 
一 个 源 代 码 库 上 使 用 主干 开发 实践 ， 每 周 代 码 提交 的 次 数 超过 了 5500 次 ， 每 周 进行 数 
百 次 生产 环境 部 署 。2010 年 ， 每 分 钟 有 20 多 个 代码 变更 签 入 主干 ， 因 此 每 个 月 代码 库 
中 50% 的 代码 都 会 被 修改 。 


这 需要 谷歌 的 团队 成 员 遵 守 严 格 的 纪律 和 强制 性 的 代码 评审 ， 这 涵盖 以 了 下 几 个 
方面 : 
口 语言 的 代码 可 读 性 ( 强制 编码 样式 ); 
口 代码 分 支 所 有 权 的 分 配 ， 并 负责 保证 一 致 性 和 正确 性 ; 
口 在 团队 中 提倡 代码 的 透明 度 和 贡献 度 。 





图 18-3 显示 了 代码 变更 的 大 小 是 怎样 影响 代码 评审 的 前 置 时 间 的 。x 轴 表 示 代 码 变 
更 的 大 小 , 》 轴 表示 代码 评审 过 程 的 前 置 时 间 。 一 般 来 说 ， 需 要 代码 评审 的 变更 批量 越 
大 ， 代 码 评审 所 需 的 前 置 时 间 就 越 长 。 左 上 角 的 数据 点 表示 更 复杂 和 更 具 潜 在 风险 的 变 
更 ， 它 们 需要 更 多 的 审议 和 讨论 。 


在 Randy Shoup 担任 谷歌 工程 总 监 期 间 ,， 他 启动 了 一 个 个 人 项 目 去 解决 公司 当时 面 
临 的 一 个 技术 问题 。 他 说 :“ 我 在 这 个 项 目 上 工作 了 几 个 星期 后 ， 请 了 一 位 领域 专家 来 
评审 我 的 代码 。 这 个 项 目 有 接近 3000 行 代码 ,这 位 专家 花 了 好 几 天 的 时 间 才 完成 评审 。 
之 后 他 对 我 说 :“ 请 不 要 再 这 么 折磨 我 了 。 我 很 感激 这 位 工程 师 所 花 的 时 间 。 我 因此 学 
到 了 一 个 经 验 ， 即 应 该 将 代码 评审 作为 日 常 工作 的 一 部 分 。” 


18.6 ”利用 结对 编程 改进 代码 变更 173 





办 一 直到 30 万 行 代码 变更 


恋 更 越 复杂 、 潜 大 风险 越 大 ， 
通过 评审 所 需 的 时 间 将 越 长 


了 J 


[3 


军 衬 字 字 字 亲 洲 涵 


. 明明 ， 


通常 ， 变 更 批量 越 大 ， 
完成 评审 所 需 的 时 间 就 
会 越 长 


16 小 


口上 oo 
ss 





1 小 


15 分 钟 
5 分 钟 





1 10 100 1,000 10,000 100,000 
每 次 变更 的 批量 (新 增 和 更 改 的 代码 行 数 ) 

图 18-3 ”谷歌 的 变更 批量 大 小 与 变更 前 置 时 间 

(来 源 : Ashish Kumar 在 2010 年 旧金山 QCon 上 的 演讲 “谷歌 的 开发 速度 和 规模 ”，https://qconsf.com/sf2010/dl/ 
qcon-sanfran-2010/slides/AshishKumar_ Developing-ProductsattheSpeedandScaleofGoogle.pdf ) 




















18.5 ”人 工 测试 和 变更 冻结 的 潜在 危害 


现在 , 我 们 已 经 建立 了 同行 评审 ， 用 来 降低 风险 ,缩短 与 变更 审批 流程 相关 的 前 置 时 间 ， 并 
实现 大 规模 的 持续 交付 , 就 像 在 谷歌 的 案例 研究 中 看 到 的 效果 。 下 面 让 我 们 来 看 一 下 测试 弄 巧 成 
拙 的 情况 。 在 测试 失败 时 ,我 们 通常 的 反应 是 应 该 做 更 多 的 测试 。 但 是 ， 如 果 只 是 在 项 目 结束 时 
去 进行 更 多 的 测试 ， 可 能 会 导致 更 糟糕 的 结果 。 












































尤其 在 做 人 工 测试 的 时 候 更 是 如 此 ， 因 为 人 工 测试 本 来 就 比 自动 化 测试 更 慢 、 更 乏味 ,而且 
完成 “附加 测试 ”的 时 间 通 常 更 长 ， 这 意味 着 部 署 频率 更 低 ， 进 而 部 署 的 批量 尺寸 也 增 大 了 。 从 
理论 和 实践 两 个 方面 讲 , 我 们 都 知道 部 署 的 批量 尺寸 越 大 ,变更 的 成 功率 就 越 低 , 事故 发 生 的 数 
量 和 平均 故障 恢复 时 间 (MTTR ) 也 都 随 之 上 升 一 一 这 个 结果 与 我 们 期 望 的 恰恰 相反 。 






































我 们 不 想 在 变更 冻结 期 间 安 排 大 量 的 变更 测试 , 而 是 要 全 面 测试 我 们 的 日 常 工作 , 作为 顺利 
连续 生产 过 程 的 一 部 分 ， 同时 提高 部 署 的 频率 。 通 过 这 种 方式 , 我 们 可 以 实现 内 建 质量 ,能够 以 
更 小 的 批量 尺寸 进行 测试 、 部 团 和 发 布 。 





18.6 ”利用 结对 编程 改进 代码 变更 
结对 编程 就 是 两 名 软件 开发 工程 师 同时 在 同一 台 工 作 站 上 工作 的 开发 方法 ， 它 是 一 种 在 21 
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世纪 初 由 极限 编程 和 敏捷 开发 广泛 推广 的 实践 。 与 代码 评审 一 样 ， 这 种 实践 始 于 开发 过 程 , 但 是 
在 价值 流 中 , 它 也 适用 于 与 工程 师 相 关 的 其 他 工作 。 在 本 书 中 , 术语 结对 和 结对 编程 的 含义 是 相 
同 的 ， 以 表明 这 种 实践 不 只 适用 于 开发 人 员 。 


在 常见 的 结对 模式 中 , 一 名 工程 师 扮 演 驾驶 者 角色 ,他 是 实际 上 编写 代码 的 人 ， 而 另 一 名 工 
程 师 则 作为 导航 员 、 观 察 者 或 督导 者 ,他 会 检查 千 驶 者 正在 进行 的 工作 。 在 检查 的 过 程 中 ,观察 
者 也 可 以 根据 工作 的 战略 方向 , 提出 改进 的 思路 以 及 将 来 可 能 遇 到 的 问题 。 有 了 观察 者 作为 安全 
网 和 指导 ， 私 驶 者 可 以 将 全 部 的 注意 力 都 放 在 完成 任务 的 战术 方面 。 当 两 人 具有 不 同 的 特长 时 ， 
他 们 可 以 互相 取长补短 ， 不 管 是 通过 专门 的 培训 还 是 通过 分 享 技术 和 变通 办 法 。 


另 一 种 结对 编程 的 模式 是 通过 测试 驱动 开发 进行 的 , 这 是 指 一 名 工程 师 编 写 自动 化 测试 , 另 
外 一 名 工程 师 编写 代码 。Stack Exchange 的 联合 创始 人 Jeff Atwood 写 道 :“ 我 不 禁 想 ， 结 对 编程 
只 不 过 是 增强 版 的 代码 评审 …… 结 对 编程 的 优势 是 及 时 性 : 评审 者 就 坐 你 旁边 时 , 你 是 不 可 能 忽 
略 他 的 。 


他 继续 说 道 :“ 如 果 可 以 选择 的 话 ， 大 多 数 人 很 可 能 会 放弃 代码 审查 ， 而 在 结对 编程 时 ， 这 
是 不 可 能 的 。 结 对 的 双方 都 必须 理解 当下 的 代码 。 结 对 可 能 是 侵入 性 的 , 但 这 也 会 迫使 人 们 达到 
前 所 未 有 的 沟通 水 平 。 


Laurie Williams 博士 在 2001 年 进行 了 一 项 研究 ， 研 究 结 果 显 示 :“ 结 对 的 程序 员 比 两 个 独立 
工作 的 程序 员 慢 了 15%， 而 “无 错误 ”代码 量 却 从 70% 增 加 到 了 85%。 由 于 测试 和 调试 程序 的 成 
本 通常 比 初始 编程 高 出 很 多 倍 ， 这 是 一 个 惊人 的 结论 。 相 比 独 立 工作 的 程序 员 , 结对 通常 会 考虑 
到 更 多 种 设计 选择 , 进而 获得 更 简洁 且 更 可 维护 的 设计 方案 ,同时 也 能 更 早 地 发 现 设计 的 缺陷 。 
Laurie Williams 博士 的 报告 中 还 说 ，96% 的 受 访 者 表示 ， 他 们 比 独立 编程 时 更 喜欢 工作 了 。” 


结对 编程 还 能 有 益 于 知识 在 组 织 内 的 传播 , 以 及 信息 在 团队 内 部 的 流动 。 让 经 验 丰富 的 工程 
师 在 经 验 不 足 的 工程 师 实现 代码 时 同步 地 评审 ， 这 也 是 一 种 有 效 的 教学 和 学 习 的 方式 。 



































































































































































































































* 案例 研究 * 
在 Pivotal 实验 室 利 用 结对 编程 代 痊 破碎 的 代码 评审 流程 2011) 


Elisabeth Hendrickson Pivotal 软件 公司 的 工程 副 总 裁 ， 也 是 《探索 吧 ! 深入 理解 
探索 式 软件 测试 》 一 书 的 作者 。 她 广泛 地 发 表 的 观点 是 : 每 个 团队 都 应 该 对 自己 的 质量 
负责 ， 而 不 是 让 单独 的 部 门 来 负责 。 她 认为 这 样 做 不 仅 可 以 提高 质量 ， 而 且 会 加 快 工作 
流入 生产 环境 的 速度 。 












































J 一 些 组 织 可 能 需要 结对 编程 ， 而 在 其 他 组 织 中 ， 工 程 师 在 需要 更 仔细 的 检查 (如 代码 签 人 前 )， 或 面临 挑战 性 的 
工作 任务 时 ， 会 找 人 进行 结对 编程 。 另 一 种 常见 做 法 是 ， 在 工作 日 里 设置 结对 时 间 ， 这 可 以 是 上 午 10 点 左右 到 
午 3 点 左右 的 4 个 小 时 。 
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在 2015 年 DevOps 企业 峰会 的 演讲 中 , 她 描述 了 在 2011 年 Pivotal 是 如 何 接受 两 种 
代码 评审 方法 的 : 结对 编程 (确保 每 行 代码 都 受到 两 个 人 的 检查 ) 或 者 受到 Gerrit 管理 
的 代码 评审 过 程 ( 它 确保 提交 的 每 行 代码 都 有 两 个 人 员 对 变更 进行 “+1” 的 评论 ， 然 后 
才能 并 入 主干 )。 


Hendrickson 在 Gerrit 代码 评审 流程 中 观察 到 的 问题 是 ,开发 人 员 通 常 需要 等 待 整整 
一 周 的 时 间 ， 才 能 得 到 他 们 所 需要 的 评审 结果 。 更 糟糕 的 是 高 级 开发 人 员 的 感受 :“ 即 
使 是 一 个 简单 的 变更 ， 也 无 法 迅速 地 进入 代码 库 ， 这 是 令 人 非常 肖 丧 和 前 溃 的 体验 ， 因 
为 我 们 无 意 中 创造 了 一 个 让 人 无 法 忍受 的 翔 颈 。” 


Hendrickson 感叹 道 :“ 有 能 力 对 变更 评论 “+1” 的 人 都 是 高 级 工程 师 ， 他 们 还 有 许 
多 其 他 职责 ， 所 以 通常 对 初级 开发 人 员 所 做 的 修复 或 生产 力 不 太 关心 。 这 会 导致 一 个 可 
怕 的 情况 一 一 当 你 在 等 待 变 更 评审 时 ， 其 他 开发 人 员 正 在 提交 他 们 的 变更 。 所 以 在 随后 
的 一 个 星期 里 ， 你 不 得 不 把 他 们 所 有 的 代码 变更 都 合并 到 你 本 地 的 笔记 本 电脑 里 ， 再 重 
新 运行 所 有 测试 ， 并 确保 自己 所 做 的 一 切 变 更 仍然 有 效 ， 并 且 ( 有 时 ) 必须 重新 提交 变 
更 等 待 评审 ! 

为 了 解决 尺 上 问题 ， 并 消除 所 有 延迟 ， 他 们 最 终 撤销 了 整个 Gerrit 代码 评审 流程 ， 
然后 应 用 结对 编程 来 实现 系统 里 的 代码 变更 。 通过 这 种 方式 ,他们 将 代码 评审 所 需要 的 
时 间 从 几 周 缩短 到 了 几 小 时 。 








Hendrickson 很 快 注 意 到 , 许多 组 织 能 正常 地 执行 代码 评审 ， 他 们 靠 的 是 一 种 文化 ， 
即 认 可 评审 代码 的 价值 不 低 于 编写 代码 的 价值 。 当 尚未 建立 这 种 文化 时 ， 在 过 渡 时 期 ， 
结对 编程 可 以 作为 一 种 宝贵 的 实践 。 


评估 Pull Request 的 有 效 性 


因为 同行 评审 是 我 们 控制 环境 的 重要 组 成 部 分 , 所 以 需要 确保 它 能 有 效 地 工作 。 一 种 方法 是 
在 出 现 生产 中 断 的 时 候 ， 检 查 任何 与 之 相关 的 变更 ， 并 检查 所 有 相关 的 同行 评审 过 程 。 


另 一 种 方法 来 自 Ryan Tomayko， 他 是 GitHub 的 首席 信息 官 和 联合 创始 人 ， 同 时 也 是 Pull 
Request 处 理 的 发 明 人 之 一 。 当 他 被 问 到 一 个 糟糕 的 Pull Request 和 一 个 有 效 的 Pull Request 有 何 
差异 时 , 他 说 , 这 与 它们 在 生产 环境 中 的 结果 其 实 没 有 什么 关联 。 相 反 , 一 个 糟糕 的 Pull Request 
其 实 没有 为 读者 提供 足够 的 内 容 , 有 些 甚至 连 说 明 变 更 目的 的 文档 都 没有 ,例如 ,一 个 Pull Request 
仅仅 提供 了 这 样 的 文字 :“ 修 复 故 障 单 #3616 和 #3841”。” 










































































GD Gene Kim 很 感谢 Shawn Davenport、James Fryman、Will Farr 和 Ryan Tomayko 在 GitHub 上 讨论 了 有 效 的 和 糟糕 的 
Pull Request 之 间 的 差异 。 
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这 是 GitHub 内 部 一 个 真实 的 Pull Request，Tomayko 评论 说 :“ 这 很 可 能 是 一 名 新 来 的 工程 
师 写 的。 首先 , 他 没有 用 @ 的 方式 提 及 任何 人 一 一 他 至 少 应 该 提 及 他 的 导师 或 某 个 领域 专家 ,并 
确保 他 所 作出 的 改动 会 有 合适 的 人 员 来 进行 评审 。 更 糟 的 是 ,对 于 变更 实际 上 是 什么 , 为 什么 它 
很 重要 ， 或 实施 者 的 想法 是 什么 ， 都 没有 任何 解释 和 说 明 。 


男 一 方面 ， 在 被 要 求 描 述 一 个 好 的 、 表 明 评审 过 程 有 效 的 Pull Request 时 ，Tomayko 迅速 地 
列 出 了 基本 的 要 素 : 必须 足够 详细 地 说 明 变更 的 原因 、 如 何 做 的 变更 ,以 及 任何 已 识别 的 风险 和 
应 对 措施 。 


Tomayko 也 在 寻找 关于 变更 的 有 益 讨 论 , 这 些 讨论 通常 是 由 如 何 描述 Pull Request 而 引发 的 。 
通常 ， 它 还 会 提出 额外 的 风险 ,为 实现 期 望 的 变更 而 提出 更 好 的 思路 ， 对 如 何 更 好 地 降低 风险 提 
出 想法 ， 等 等 。 如 果 在 部 署 时 发 生 了 糟糕 的 或 意外 的 事情 ， 它 还 会 被 添加 到 Pull Request 中 ， 并 
带 有 一 个 指向 相应 问题 的 链接 。 所 有 的 讨论 中 都 没有 责备 ， 相反 ,大 家 对 于 如 何 防 止 问题 的 复发 
展开 了 一 场 坦诚 的 对 话 。 


例如 ，Tomayko 还 展示 了 男 一 个 GitHub 内 部 的 关于 数据 库 迁 移 的 Pull Request。 它 用 了 大 量 
的 篇 幅 论述 潜在 的 风险 ，Pull Request 的 作者 是 这 样 说 明 的 :“ 我 正在 修复 一 件 事 。 由 于 持续 集成 
服务 器 的 数据 库 里 缺少 了 一 列 , 这 导致 目前 分 支 的 构建 失败 了 。( 事后 剖析 的 链接 是 : MySQL 宕 
机 。》 

然后 ,变更 提交 者 为 宕 机 道歉 ,并 描述 了 导致 事故 发 生 的 条 件 和 错误 假设 , 同时 为 了 防止 问 
题 的 复发 ， 提 出 了 各 种 对 策 。 接 下 来 是 大 家 对 此 一 页 又 一 页 的 讨论 。 在 翻阅 这 个 Pull Request 的 
时 候 ，Tomayko 笑 着 说 :“ 这 才 是 一 个 Pull Request 的 范例 。” 


如 上 所 述 , 我 们 可 以 从 全 部 Pull Request 与 生产 事故 相关 的 Pull Request 中 抽样 检查 , 来 评估 
同行 评审 过 程 的 有 效 性 。 









































































































































18.7 ”消除 官僚 流程 


到 目前 为 止 , 我 们 已 经 讨论 了 同行 评审 和 结对 编程 的 流程 , 它们 能 够 在 不 需要 依赖 外 部 变更 
审批 的 情况 下 ,提高 工作 质量 。 然 而 , 许多 公司 仍然 存在 着 由 来 已 久 的 、 动 辆 需要 数 月 的 审批 流 
程 。 这 些 审批 流程 大 大 延长 了 前 置 时 间 , 不 仅 阻碍 了 快速 地 向 客户 交付 价值 ， 可 能 还 给 实现 组 织 
目标 平添 了 风险 。 当 发 生 这 种 情况 时 ， 我 们 必须 重新 设计 流程 ， 才 便 更 快 、 更 安全 地 实现 目标 。 


就 像 Adrian Cockcroft 所 说 的 那样 :“ 应 该 广泛 发 布 的 一 个 有 用 指标 是 ,为 执行 一 次 发 布 , 不 
得 不 召集 的 会 议和 处 理 的 工 单数 量 一 一 目标 是 大 大 降低 工程 师 为 完成 工作 并 交付 给 客户 所 需 付 
出 的 努力 。 


类 似 地 ， 第 一 资本 银行 的 技术 研究 员 Tapabrata Pal 博士 ， 描 述 了 该 公司 一 个 名 为 Got Goo 的 
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项 目 , 该 项 目 中 有 一 个 团队 专门 负责 消除 工作 障碍 ,包括 工具 、 流 程 和 审批 等 方面 。 迪 士 尼 公司 
系统 工程 高 级 总 监 Jason Cox 在 2015 年 DevOps 企业 峰会 的 演讲 中 , 描述 了 一 个 名 为 “加 入 叛乱 ” 
(Join The Rebellion ) 的 计划 ， 旨 在 消除 日 常 工作 中 的 琐事 和 障碍 。 

















2012 年 ， 塔 吉 特 公司 采用 了 技术 企业 适用 流程 (Technology Enterprise Adoption Process ) 和 
首席 架构 审查 委员 会 (Lead Architecture Review Board ) (TEAP-LARB 流程 ) 的 组 合 模式 ， 结 
导致 了 异常 的 复杂 性 ,引进 新 技术 要 经 历 长 时 间 的 审批 流程 。 任 何 想 引进 新 技术 ( 例如 新 的 数据 
库 或 监测 技术 ) 的 人 都 需要 填写 TEAP 表格 。 这 些 提议 需要 经 过 评估 , 合适 的 提议 还 要 纳入 LARB 
的 月 度 会 议 议程 。 


塔 吉 特 公司 开发 总 监 Heather Mickman 和 运营 总 监 Ross Clanton ， 领 导 了 该 公司 的 DevOps 
运动 。 在 他 们 执行 DevOps 计划 期 间 ，Mickman 已 经 确定 了 一 项 用 来 支撑 业务 ( Tomcat 和 
Cassandra ) 的 技术 需求 。LARB 做 出 的 决定 是 ， 运 维 部 门 在 当时 无 法 提供 技术 支持 。 然 而 ， 因 为 
Mickman 深信 这 项 技术 是 必 不 可 少 的 , 所 以 她 建议 由 她 的 开发 团队 来 负责 提供 服务 支持 , 以 及 集 
成 性 、 可 用 性 和 安全 性 方面 的 支持 ， 而 不 是 依赖 运 维 团队 。 


“在 我 们 经 历 这 个 过 程 时 , 我 想 更 好 地 理解 为 什么 通过 TEAP-LARB 流程 需要 这 么 长 的 时 间 。 
我 使 用 了 “五 个 为 什么 ”的 技巧 …… 最 后 我 想到 的 问题 是 ， 为 什么 当初 我 们 会 建立 TEAP-LARB 
这 个 流程 ? 令 人 惊讶 的 是 ,没有 人 知道 原因 ,除了 有 一 个 模糊 的 想法 一 一 我 们 需要 一 种 治理 流程 。 
许多 人 都 知道 多 年 前 曾经 发 生 过 的 灾难 , 也 知道 它 可 能 永远 不 会 复发 , 但 是 没有 人 准确 地 记得 那 
个 灾难 是 什么 。” Mickman 说 道 。 


Mickman 的 结论 是 , 如 果 她 的 团队 要 对 所 引入 的 技术 承担 运 维 责 任 , 那么 他 们 其 实 不 需要 这 
个 流程 。 她 补充 说 :“ 我 要 让 大 家 都 知道 ,以 后 对 任何 新 技术 的 支持 ,都 不 需要 通过 TEAP-LARB 
流程 。 
结果 是 塔 吉 特 成 功 地 引入 了 Cassandra 技术 ， 并 最 终 得 到 了 广泛 用 用。 此 外 ， 还 彻底 撤销 了 


TEAP-LARB 流程 。 为 了 感谢 Mickman 消除 了 在 塔 吉 特 内 部 完成 技术 工作 的 障碍 ， 团 队 授 予 
Mickman“ 终 身 成 就 奖 ”。 

















































































































18.8 ”小结 


本 章 讨论 了 一 些 要 整合 到 日 常 工作 中 的 技术 实践 , 它们 能 够 提高 变更 的 质量 , 降低 部 署 出 错 
的 风险 ,减少 对 审批 流程 的 依赖 。GitHub 和 塔 吉 特 的 案例 研究 表明 ， 这 些 实践 不 仅 改善 了 工作 成 
果 , 而 且 还 极 大 地 缩短 了 前 置 时 间 , 并 提高 了 开发 人 员 的 生产 力 。 这 些 工 作 需 要 高 度 信任 的 文化 。 

John Allspaw 讲述 了 一 个 关于 新 招聘 的 初级 工程 师 的 故事 。 这 位 工程 师 问 是 否 可 以 部 署 一 个 
小 的 HTML 变更 , Allspaw 回答 说 :“ 我 不 知道 。 可 以 吗 ? ”他 接着 问 :“ 有 人 审核 过 你 的 变更 吗 ? 
你 知道 谁 是 咨询 这 类 变更 的 最 佳人 选 吗 ? 你 能 保证 这 种 变更 会 按照 设计 在 生产 环境 中 运行 吗 ? 
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如 果 你 的 回答 是 肯定 的 ， 那么 不 用 来 问 我 了 ， 直 接 变 更 好 了 1” 


定 
通过 这 种 回应 方式 ，Allspaw 提醒 了 那 位 工程 师 ， 她 要 对 自己 的 变更 质量 负 全 责 。 如 果 她 做 
了 能 做 的 一 切 ， 确 信 变 更 会 正常 工作 ， 那 么 她 就 不 需要 请 求 任 何人 的 批准 ， 她 应 该 去 实施 这 个 
之 o 
创造 条 件 , 让 变更 实施 者 完全 掌控 自己 的 变更 质量 , 这 是 我 们 努力 建设 的 高 度 信任 的 、 生 成 
性 文化 的 重要 组 成 部 分 。 而 且 , 这些 条 件 能 使 我 们 创造 出 一 个 更 加 安全 的 工作 系统 , 我们 在 实现 
目标 的 过 程 中 相互 帮助 ， 跨 越 任何 必须 跨越 的 边界 。 






































18.9 ”第 四 部 分 总 结 


第 四 部 分 向 我 们 展示 了 ,通过 实施 反馈 回路 , 可 以 让 每 个 人 都 为 实现 共同 的 目标 而 协作 ， 当 
发 生 问题 时 及 时 发 现 问 题 , 并 通过 快速 检测 和 恢复 的 机 制 ,保障 所 有 功能 不 仅 能 按照 设计 在 生产 
环境 中 运行 ,而 且 还 实现 了 组 织 目 标 和 组 织 学 习 。 我 们 还 研究 了 如 何 让 开发 和 运 维 共享 目标 ， 从 
而 提高 整个 价值 流 的 健康 程度 。 

我 们 即将 进入 第 五 部 分 “第 三 步 : 持续 学 习 与 实验 的 技术 实践 "， 以 便 更 早 、 更 快 、 更 廉价 
地 创造 学 习 机 会 ， 这样 才能 打造 创新 和 实验 文化 ,使 每 个 人 都 通过 从 事 有 意义 的 工作 ， 帮 助 组 织 
取得 成 功 。 

















步 : 持续 学 习 与 实验 的 技术 实践 





第 


在 第 三 部 分 中 ,我们 讨论 了 在 价值 流 里 建立 快速 工作 流 所 需 的 技术 实践 。 在 第 四 部 分 中 ， 
我 们 的 目标 是 从 工作 系统 里 尽 可 能 多 的 领域 中 建立 尽 可 能 多 的 反馈 ， 并 且 更 及 时 、 更 迅速 、 更 
廉价 。 


在 第 五 部 分 中 ， 我 们 会 展示 一 些 能 尽量 快速 、 频 繁 、 经 济 地 创造 更 多 学 习 机 会 的 实践 。 这 
包括 从 事故 和 故障 中 学 习 ， 因 为 当 我 们 在 复杂 的 系统 中 工作 时 ， 故 障 是 不 可 避免 的 ; 还 包括 组 
织 和 设计 工作 系统 ， 使 我 们 能 不 断 地 尝试 和 学 习 ， 让 系统 更 加 安全 。 期 望 达到 的 成 果 包 括 获 得 
更 高 的 弹性 ， 以 及 对 系统 实际 工作 机 制 的 日 益 丰 富 的 集体 知识 ， 从 而 能 让 我 们 更 好 地 实现 目标 。 


在 接 下 来 的 儿童 中 ,我 们 将 通过 以 下 方式 制定 有 关 提 高 安全 性 、 持 续 改 进 和 边 做 边 学 的 制度 : 


口 建立 公正 的 文化 ,使 人 们 有 安全 感 ; 

口 通过 故障 注入 的 方式 ， 增 强生 产 环境 的 可 靠 性 ; 

D 将 局 部 发 现 的 经 验 知识 转化 成 全 局 的 提升 ; 

口 预 留 专门 的 时 间 段 ， 用 来 开展 组 织 性 的 改进 和 学 习 活 动 。 


我 们 还 将 创造 一 种 机 制 ， 将 团队 在 某 个 领域 里 学 到 的 经 验 迅 速 地 应 用 和 推广 到 整个 组 织 里 ， 
将 局 部 的 改进 转化 成 全 局 的 优化 。 这 样 ， 不 仅 学 习 速 度 会 比 竞 争 对 手 更 快 ， 有 助 于 在 市 场 兖 争 
中 取胜 ， 而 且 能 创造 出 一 种 更 安全 、 更 有 弹性 的 工作 文化 ， 证 团队 成 员 乐 于 参与 其 中 ， 并 帮助 
他 们 在 最 大 程度 上 激发 潜能 。 































































































将 学 习 融 入 日 党 工作 





























在 复杂 的 系统 中 工作 时 ， 我 们 不 可 能 预测 到 所 有 可 能 的 结果 。 即 使 使 用 了 静态 预防 性 工具 ， 
如 核对 表 和 标准 化 操作 手册 等 ， 可 还 是 会 有 意外 发 生 ， 有 时 候 甚 至 是 灾难 性 的 事故 。 这 些 工具 只 
是 记录 了 我 们 当前 对 系统 的 理解 。 


为 了 在 复杂 系统 中 安全 地 工作 , 组 织 一 定 要 能 够 进行 更 好 的 自我 诊断 和 自我 改进 , 而 且 必 须 
熟练 地 发 现 和 解决 问题 , 并 通过 在 整个 组 织 中 传播 解决 方案 来 扩大 效果 。 这 种 方式 会 创造 出 一 个 
动态 的 学 习 系统 ， 让 我 们 理解 错误 ， 并 将 理解 转化 为 防止 这 些 错 误 复 发 的 行动 。 


这 就 像 Steven Spear 博士 所 说 的 “可 恢复 型 组 织 "， 能 够 “熟练 地 发 现 问题 ， 解 决 问题 ， 并 
通过 在 整个 组 织 中 提供 解决 方案 来 扩大 经 验 的 效果 ”。 这 些 组 织 具 有 自我 愈合 的 能 力 。“ 对 于 这 样 
的 组 织 , 应 对 危机 并 不 是 什么 特殊 的 工作 ， 而 是 每 时 每 刻 都 在 做 的 事情 。 这 种 响应 能 力 是 可 靠 性 
的 源泉 。” 


2011 年 4 月 21 日 ， 当 亚马逊 AWS 整个 美国 东部 (US East ) 可 用 性 区 域 宕 机 时 ， 我 们 看 到 

了 这 些 原则 和 实践 产生 了 难以 置信 的 恢复 力 。 在 这 个 区 域 中 ， 几 乎 所 有 依赖 AWS 的 用 户 都 受到 

影响 ,包括 Reddit 和 Quora。" 然 而 ，Netflix 却 是 一 个 惊人 的 例外 ， 似 乎 并 没有 受到 这 次 AWS 
大 规模 服务 中 断 的 影响 。 


在 这 次 事件 之 后 ， 有 很 多 关于 Netflix 如 何 维持 服务 可 用 性 的 猜测 。 一 个 流行 的 说 法 是 ， 
为 Neflix 是 AWS 的 顶级 用 户 ， 所 以 得 到 了 某 些 保证 服务 的 特殊 待遇 。 然 而 ， 一 个 名 为 “Neflix 工 
程 ”的 博客 发 文 解释 说 , 正 是 他 们 在 2009 年 的 架构 设计 决策 ,为 这 种 超常 的 恢复 力 葛 定 了 基础 。 


早 在 2008 年 , Netflix 的 在 线 视频 交付 服务 还 运行 在 一 个 单 体 的 J2EE 应 用 程序 上 , 这 个 应 用 
程序 托管 在 一 个 数据 中 心 。 然 而 ， 从 2009 年 起 ， 他 们 就 开始 了 系统 的 重 构 ， 结 果 就 是 所 谓 的 云 


原生 ( cloud native ) 一 一 系统 完全 运行 在 亚马逊 AWS 公有 云 中 ,而且 具备 足够 的 可 恢复 性 ， 能 
够 笠 免 于 难 。 












































































































































中 在 2013 年 1 月 的 re:Invent 大 会 上 ，AWS 副 总 裁 兼 杰出 工程 师 James Hamilton 讲 到 ，AWS 的 美国 东部 区 本 身 拥有 
十 多 个 数据 中 心 。 他 还 补充 说 ， 在 一 个 典型 的 数据 中 心里 有 5 万 ~ 8 万 台 服 务 器 。 根 据 这 个 数字 推算 ，2011 年 的 
这 次 EC2 服务 中 断 影响 了 客户 的 50 多 万 个 虚拟 机 服务 器 。 
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他 们 有 一 个 特别 的 设计 目标 ， 那 就 是 即使 AWS 的 整个 可 用 区 域 都 发 生 了 故障 ， 就 像 这 次 美 
国 东部 区 的 事故 ， 也 要 确保 Netflix 的 服务 能 够 持续 运行 。 要 达到 这 一 点 就 需要 系统 架构 是 松 耦 
合 的 ,每 个 组 件 都 有 特别 敏感 的 超时 设计 ， 从 而 保证 出 现 故 障 的 组 件 不 会 拖 垮 整个 系统 。 作 为 替 
代 ，Netflix 每 个 功能 和 组 件 都 设计 为 具有 完全 降级 的 能 力 。 例 如 ， 当 流量 剧 增 造 成 了 CPU 使 用 
率 暴 涨 的 时 候 ， 就 不 向 用 户 显示 个 性 化 的 电影 推荐 列表 ， 而 是 只 显示 已 经 缓存 的 静态 内 容 ， 从 而 
减少 计算 资源 的 需求 。 


此 外 , 这 篇 博客 文章 还 解释 ,除了 实施 这 些 架构 模式 ， 他 们 还 构建 并 运行 了 一 个 令 人 吃惊 的 
大 胆 服务 ， 称 为 “ 揭 乱 猴 ”( Chaos Monkey )。 它 会 不 断 地 随机 删除 生产 服务 咒 ， 来 模拟 AWS 环 
境 故 障 。 他 们 这 样 做 是 希望 所 有 的 “工程 团队 习惯 于 在 常规 的 故障 水 平 上 工作 ”， 使 得 服务 能 够 
“在 没有 任何 人 工 干预 的 情况 下 ， 自 动 恢复 正常 ”。 


换 名 话说，Netfix 团队 通过 运行 “捣乱 猴 ” 不 断 地 将 故障 注入 到 预 生 产 和 生产 环境 中 , 从 而 
实现 了 运 维 上 的 恢复 性 目标 。 


可 以 想见 ， 当 他 们 在 生产 环境 中 首次 运行 “捣乱 猴 ” 的 时 候 ， 服 务 发 生 的 故障 超出 了 想象 。 
通过 在 正常 工作 时 间 里 不 断 地 探测 和 解决 这 些 问题 , Netflix 的 工程 师 们 很 快 反复 打磨 出 这 项 弹性 
十 是 的 服务 ,同时 创造 出 了 组 织 学 习 成 果 ( 在 正常 工作 时 间 里 ! )， 从 而 能 够 开发 出 超越 所 有 竞争 
对 手 的 系统 。 


“捣乱 猴 ” 只 是 将 学 习 融 入 日 常 工作 中 的 一 个 例子 。 这 个 故事 还 展示 了 学 习 型 组 织 是 如 何 思 
考 故 障 、 事 故 和 错误 的 一 一 将 其 视 为 学 习 的 机 遇 ， 而 不 是 惩罚 的 机 会 。 本 章 探 讨 如 何 创 建 学 习 系 
统 ， 如 何 建立 公正 文化 ， 以 及 如 何 通 过 定期 演练 和 人 为 模拟 故障 的 方式 加 速 学 习 。 




































































19.1 建立 公正 和 学 习 的 文化 


学 习 型 文化 的 先决 条 件 之 一 是 , 当 发 生 事故 时 ( 这 是 毫 无 疑问 的 ), 对 待 它 的 反应 要 “公正 ”。 
Sidney Dekker 博士 整理 了 一 些 有 关 安 全 文化 方面 的 关键 要 素 ， 并 且 使 用 了 公正 文化 这 个 术语 。 
他 写 道 :“ 如 果 对 竺 事件 和 事故 的 反应 被 认为 是 不 公正 的 ， 就 可 能 阻碍 安全 调查 ， 从 而 在 从 事 安 
全 关键 性 工作 的 人 员 中 引发 铠 惧 而 非 正念 , 使 组 织 更 加 官僚 而 不 是 更 加 小 心 谨慎 , 并 且 诱 发 职业 
性 保密 、 逃 避 和 自我 保护 。 


在 整个 20 世纪 里 ， 这 种 惩罚 的 观念 一 直 出 现在 很 多 经 理 人 采用 的 运营 方式 中 ， 或 微妙 、 或 
明显 。 这 种 思想 是 ， 为 了 实现 组 织 的 目标 ， 领 导 者 必须 通过 命令 、 控 制 和 建立 流程 的 方式 来 消除 
错误 ， 并 且 强 制 遵守 这 些 流程 。 

Sidney Dekker 博士 将 这 种 通过 消除 秘 事 者 而 消除 错误 的 观念 叫 作 坏 革 果 理论 。 他 断言 这 是 
无 效 的 ， 因 为 “人 为 错误 并 不 是 问题 的 原因 ; 恰恰 相反 ， 人 为 错误 是 我 们 提供 的 工具 存在 设计 问 
题 而 造成 的 后 果 ”。 
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如 果 事 故 并 不 是 “ 坏 苹果 ”引起 的 ,而 是 由 于 我 们 所 建立 的 复杂 系统 中 存在 着 不 可 避免 的 设 
计 问 题 而 导致 的 ， 那 么 就 不 应 该 对 造成 故障 的 人 进行 “点 名 、 责 备 和 羞辱 ”。 我 们 的 目标 应 该 总 
是 最 大 限度 地 抓 住 组 织 学 习 的 机 会 , 持续 强调 我 们 重视 广泛 地 揭示 和 交流 日 常 工作 中 的 问题 。 这 
样 才 能 提高 我 们 所 在 系统 的 质量 和 安全 性 ， 并 强化 系统 内 所 有 人 之 间 的 关系 。 


通过 将 信息 转化 为 知识 , 并 将 学 习 到 的 结果 构建 到 系统 中 , 我 们 就 开始 实现 公正 文化 的 目标 
了 ， 同 时 平衡 了 安全 和 问 责 的 需求 。 正 如 Etsy 首席 技术 官 John Allspaw 所 说 :“ 我 们 在 Etsy 的 目 
标 是 从 学 习 的 角度 看 竺 错误、 报错 、 失 误 、 过 失 等 。” 


当 工 程 师 犯错 误 时 ， 如 果 可 以 有 安全 感 地 给 出 详细 信息 , 那么 他 们 不 仅 愿意 对 事情 负责 ， 而 
且 会 热情 地 帮助 其 他 人 避免 同样 的 错误 发 生 。 这 就 创造 了 组 织 学 习 。 与 之 相反 ,如果 惩 罚 那 个 工 
程 师 ， 每 个 人 都 没有 了 提供 必要 细节 的 积极 性 ， 想 了 解 故障 的 机 制 、 原 理 和 操作 就 无 从 谈 起 了 ， 
那么 这 个 故障 肯定 还 会 再 次 发 生 。 

有 两 个 有 效 的 实践 有 助 于 创造 公正 的 学 习 型 文化 : 一 是 不 指责 的 事后 分 析 ; 二 是 在 生产 环境 
中 引入 受 控 的 人 为 故障 , 用 于 创造 机 会 针对 复杂 系统 中 不 可 避免 的 问题 进行 练习 。 下面 首先 看 看 
不 指责 的 事后 分 析 ， 并 探索 为 什么 失败 可 以 是 一 件 好 事 。 













































































19.2 ”举行 不 指责 的 事后 分 析 会 议 


为 了 有 助 于 建立 公正 文化 ， 当 事故 和 重大 事件 发 生 时 ( 例如 ， 部署 失败 ， 影 响 到 客户 的 生产 
事件 )， 应 该 在 问题 解决 以 后 进行 不 指责 的 事后 分 析 。" 这 个 词 是 John Allspaw 提出 的 ， 可 以 帮助 
我 们 检查 “不 只 是 事故 本 身 ， 而 且 关 注 事故 发 生 的 机 制 和 情景 ， 以 及 事故 相关 人 的 决策 过 程 ”。 


想 要 做 到 这 一 点 ,我 们 要 在 事故 发 生 之 后 ,记忆 消 退 、 因 果 关 系 变 模 糊 、 环 境 改 变 之 前 ,就 
尽快 地 安排 事后 分 析 会 议 。( 当然 ,我 们 会 等 到 问题 解决 之 后 ， 以 免 干 扰 到 仍 在 积极 处 理 这 个 问 
题 的 人 。 ) 


在 不 指责 的 事后 分 析 会议 上 ， 我 们 会 做 以 下 事情 : 


口 构建 时 间 表 ， 从 多 个 角度 收集 关于 故障 的 所 有 细节 ， 保 证 不 会 惩罚 犯错 误 的 人 ; 
口 通过 让 所 有 工程 师 详细 说 明 自 己 如 何 导 致 了 故障 ， 使 他 们 能 够 提高 安全 性 ; 
口 允许 并 鼓励 那些 犯错 误 的 人 成 为 教育 他 人 以 后 不 会 犯 同样 错误 的 专家 ; 

D 营造 一 个 自由 决策 的 空间 ， 让 人 们 决定 是 否 采取 行动 ， 并 且 把 对 所 做 决定 的 评判 放 在 
事后 ; 

口 制定 预防 类 似 事故 的 对 策 ， 并 确保 记录 这 些 对 策 、 目 标 日 期 和 负责 人 ， 以 便 进行 跟踪 。 













































































Qz 这 种 做 法 也 称 为 对 事 不 对 人 的 事后 分 析 或 者 事后 反思 。 值得 注意 的 是 还 有 一 个 类 似 的 常规 回顾 ， 是 许多 迭代 和 敏 
捷 开 发 实践 的 一 部 分 。 
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为 了 获得 足够 的 理解 ， 以 下 利益 干系 人 需要 出 席 会 议 : 


口 参与 相关 问题 决策 的 人 ; 
D 识别 问题 的 人 ; 

口 响应 问题 的 人 ; 

D 诊断 出 问题 的 人 ; 

口 受 问题 影响 的 人 ; 

口 任何 有 兴趣 参加 会 议 的 人 。 


召开 不 指责 的 事后 分 析 会 议 时 , 首要 任务 是 梳理 所 有 相关 事件 的 时 间 表 并 将 对 其 的 最 佳 理解 
记录 下 来 。 这 包括 采取 的 所 有 行动 及 其 时 间 ( 理想 情况 下 ， 通 过 查阅 聊天 日 志 获 取 ， 如 IRC 或 
Slack )， 观 察 到 的 现象 ( 理想 情况 下， 按照 生 产 环境 遥测 系统 里 的 具体 监控 指标 ， 而 不 仅仅 是 人 
们 的 主观 叙述 )， 经 历 的 所 有 调查 路 径 ， 以 及 曾经 考虑 到 的 各 种 解决 方案 。 


为 了 实现 以 上 效果 , 必须 关注 细节 的 记录 并 强化 这 样 一 种 文化 : 信息 是 能 够 分 享 的 ,不必 害 
白 因 此 受到 惩罚 或 报复 。 正 因为 如 此 , 找 一 个 受过 训练 的 、 和 事故 无 关 的 人 来 组 织 并 引导 会 议 很 
有 帮助 ， 特 别 是 在 召开 头 几 次 事后 分 析 会 议 时 。 


在 会 议和 决议 的 过 程 中 ,应 该 明确 禁止 使 用 “原来 应 该 ”或 “原本 可 以 ”等 词语 ， 因 为 它们 
是 反 事实 的 陈述 ， 源 于 人 类 倾向 于 为 已 经 发 生 的 事件 创造 可 能 的 选择 。 


例如 “我 原本 可 以 ……” 或 “如 果 我 知道 这 一 点 ， 就 应 该 ……” 的 反 事实 陈述 都 是 用 想象 的 
方式 来 定义 问题 ， 而 不 是 以 事实 为 依据 。 我 们 要 限制 自己 使 用 这 样 的 语 境 ( 见 附录 8 )。 


这 些 会 议 可 能 会 出 现 一 种 令 人 惊讶 的 结果 , 那 就 是 人 们 和 常常 会 为 自己 控制 之 外 的 事情 而 责怪 
自己 或 质疑 自己 的 能 力 。Etsy 的 工程 师 Ian Malpass 说 :“ 当 我 们 的 操作 导致 整个 网 站 都 宕 机 的 时 
候 , 感觉 就 像 晴天 霹雳 ,头脑 中 的 第 一 个 想法 可 能 就 是 “我 太 差劲 了 ,完全 不 知道 自己 在 做 什么 。” 
可 是 我 们 不 能 这 么 想 ， 因 为 这 是 一 条 通 往 疯狂 、 绝 望 和 自我 怀疑 的 道路 ， 我 们 不 能 让 训练 有 素 
的 工程 师 产 生 这 样 的 情绪 。 最 好 关注 一 个 更 好 的 问题 :“ 在 进行 那个 操作 的 时 候 ， 为 什么 我 觉得 
可 行 ? ” 

会 议 必须 预 留 足 够 的 时 间 ， 开展 头脑 风暴 和 决定 应 对 措施 。 一 旦 确定 了 对 策 ， 就 必须 排 定 工 
作 的 优先 次 序 ,， 指定 负责 人 和 实施 时 间 表 。 这 进一步 表明 , 我们 对 改进 日 常 工作 的 重视 程度 超过 
日 常 工作 本 身 。 

Hubspot 首席 工程 师 Dan Milstein 写 到 ， 对 于 所 有 不 指责 的 事后 分 析 会 议 ， 他 都 以 这 句 话 开 
场 :“ 我 们 正在 为 未 来 做 准备 ， 那 时 的 我 们 会 和 现在 一 样 思 礁 。” 换 名 话说 ， 只 是 说 “更 小 心 ” 或 
“ 别 犯 春 ” 是 不 可 接受 的 ， 必 须 得 出 真正 的 应 对 措施 ， 防 止 这 些 错误 再 次 发 生 。 


这 些 应 对 措施 的 范例 包括 : 新 增 能 检测 部 署 流 水 线 异常 状况 的 自动 化 测试 , 添加 更 深入 的 生 
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产 环境 遥测 指标 ,识别 需要 额外 同行 评审 的 变更 类 型 ， 以 及 在 定期 的 演练 日 里 进行 针对 此 类 故障 
的 演习 。 





19.3 尽 可 能 广泛 地 公开 事后 分 析 会 议 结果 


开 完 不 指责 的 事后 分 析 会 议 以 后 ,应 该 广泛 地 公开 会 议 记录 和 所 有 相关 文档 资料 ( 例如 ,时 
间 表 、IRC 聊天 日 志 、 外 部 沟通 )。 在 理想 情况 下 ， 公 开 的 信息 应 该 放 在 一 个 集中 的 位 置 ,方便 
整个 组 织 里 的 所 有 人 访问 ,从 过 去 的 事故 中 学 习 。 事后 分 析 会 议 非常 重要 , 我 们 甚至 可 以 将 完成 
事后 分 析 会 议 作为 整个 生产 事故 处 理 过 程 结 束 的 标志 。 


这 样 做 有 助 于 将 项 目 中 的 学 习 和 改进 转化 为 整个 组 织 的 学 习 和 改进 ,Google App Engine 的 前 
工程 总 监 Randy Shoup 描述 了 事后 分 析 会 议 的 文档 如 何 为 组 织 中 的 其 他 人 带 来 巨大 价值 :“ 在 谷 
歌 ， 你 能 想到 的 一 切 都 可 以 搜索 出 来 。 谷歌 员 工 可 以 看 到 所 有 的 事后 分 析 文 档 。 相 信 我 ,每 当 有 
团队 遇 到 似曾相识 的 事故 ， 他 们 第 一 时 间 阅 读 和 研究 的 资料 就 包括 这 些 事 后 分 析 文 档 。”” 


广泛 地 公开 这 些 事后 分 析 文 档 并 鼓励 组 织 中 的 其 他 人 阅读 , 能 增进 组 织 学 习 。 对 于 提供 线 上 
服务 的 公司 来 说 , 针对 影响 到 客户 的 事故 发 布 事后 分 析 报告 也 越 来 越 普遍 。 这 通常 显著 提高 了 我 
们 对 内 部 和 外 部 客户 的 透明 度 ， 也 反 过 来 增强 了 客户 对 我 们 的 信任 。 


在 Etsy, 想 尽 可 能 多 地 举行 不 指责 的 事后 分 析 会 议 的 愿望 也 带 来 了 一 些 麻烦 。 在 4 年 的 时 间 
里 ,Etsy 在 自己 的 维基 页 面 里 积累 了 大 量 的 事后 分 析 会 议 记 录 , 对 这 些 记录 的 搜索 、 存 储 和 协作 
变 得 越 来 困难 。 

为 了 解决 这 个 问题 ， 他 们 开发 了 一 个 名 为 Morgue 的 工具 ， 来 更 加 轻松 地 记录 每 个 事故 各 方 
面 的 细节 [ 例如 平均 恢复 时 间 (MTTR ) 和 严重 性 ]， 更 好 地 解决 时 区 问题 ( 随 着 Etsy 拥有 越 来 
越 多 远程 工作 的 员工 ， 时 区 信息 变 得 更 重要 了 )， 以 及 纳入 其 他 数据 ( 例如 Markdown 格式 的 富 
文本 、 搬 入 的 图 片 、 标 签 和 历史 记录 等 )。 


Morgue 的 设计 守则 是 让 团队 更 加 轻松 地 记录 : 


口 该 问题 是 由 于 计划 中 还 是 计划 外 的 事件 引起 的 ; 

口 事后 分 析 会 议 的 负责 人 ; 

口 相关 IRC 聊天 日 志 ( 对 于 凌晨 3 点 发 生 的 夜间 事故 尤其 重要 , 因为 可 能 没有 准确 的 笔记 ); 
口 相关 的 IRA 工 单 ， 包 含 纠正 措施 及 其 到 期 时 间 ( 对 于 管理 而 言 是 特别 重要 的 信息 ); 

口 到 客户 论坛 帖子 的 链接 ( 客户 在 那里 对 问题 发 牢骚 )。 











































































































































































































中 我们 还 可 以 选择 将 “透明 的 正常 运行 时 ”理念 进一步 扩展 到 事后 分 析 报 告 上 。 除 了 为 公众 提供 服务 仪表 板 之 外 ， 
还 可 以 选择 向 公众 发 布 事后 分 析 报 告 ( 可 能 是 精简 版 ) 最 受 好 评 的 事后 分 析 报告 包括 Google App Engine 团队 在 
2010 年 发 生 严 重 服务 中 断后 发 布 的 报告 ， 以 及 2015 年 Amazon DynamoDB 服务 中 断后 发 布 的 报告 。 有 趣 的 是 ， 
Chef 在 博客 上 发 布 了 很 多 事后 分 析 会 议 记录 ， 还 有 实际 会 议 的 视频 。 
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与 之 前 使 用 维基 页 面相 比 ， 在 开发 和 使 用 了 Morgue 以 后 ，Etsy 记录 的 事后 分 析 数 量 显 著 增 
加 了 ， 特 别 是 P2、P3 和 P4 级别 的 事故 (严重 性 较 低 的 问题 )。 这 个 结果 证 实 了 一 个 假设 : 如 果 
可 以 用 类 似 Morgue 的 工具 更 方便 地 记录 事后 分 析 ， 就 会 有 越 来 越 多 的 人 记录 并 详细 说 明 事 后 分 
析 会 议 的 结果 ， 从 而 促进 组 织 学 习 。 




















哈佛 商学 院 领 导 与 管理 学 诺华 教授 、Building the Future: Big Teaming for Audacious Innovation 
一 书 的 合 著者 Amy C. Edmondson 博 十 写 道 : 








再 次 强调 ， 补 救 措施 是 为 了 降低 故障 的 影响 ， 它 并 不 一 定 需要 很 多 的 时 间 和 费用 。 
自 20 世纪 90 年 代 初 开始 ， 礼 来 公司 通过 举办 “失败 派对 ”来 向 那些 没有 实现 预期 结果 
的 高 质量 科学 实验 致敬 。 派 对 的 开销 并 不 高 ， 而 且 尽 早 将 宝贵 的 资源 一 特别 是 科学 
家 一 一 重新 部 署 到 新 项 目 里 ,就 可 以 节省 数 十 万 美元 ,更 不 用 说 启动 有 潜力 的 新 发 现 了 。 








19.4 降低 事故 容忍 度 ， 寻 找 更 弱 的 故障 信号 


随 着 组 织 学 到 如 何 有 效 地 看 待 和 解决 问题 , 就 需要 降低 判定 故障 的 国 值 , 以 便 更 深入 地 学 习 。 
为 此 , 我 们 想 放大 那些 微弱 的 故障 信和 号。 就 如 第 4 章 所 述 ， 当 美 铝 公司 能 够 降低 工作 场所 里 的 事 
故 发 生 率 、 使 故障 不 再 经 常 发 生 时 ， 首 席 执行 官 保 Paul ONeill 除了 关注 工作 场所 发 生 的 事故 ， 
还 开始 关注 那些 接近 于 事故 的 事件 。 


Steven Spear 博士 总 结 了 O’Neill 在 美 铝 公司 的 成 就 :“ 虽 然 他 们 起 初 关注 的 是 与 工作 场所 安 
全 相关 的 问题 , 但 很 快 就 发 现 安全 问题 其 实 反 映 了 对 流程 的 无 知 ,而 这 种 无 知 也 会 体现 在 其 他 类 
型 的 问题 上 ， 如 质量 、 时 间 以 及 产量 与 次 品 ”。 


在 复杂 系统 中 工作 时 ,放大 微弱 的 故障 信号 对 于 防范 灾难 性 故障 是 至 关 重 要 的 。NASA 在 航 
天 飞机 时 代 处 理 故 障 信号 的 方式 可 以 证 明 这 一 点 。2003 年 ， 哥伦比亚 号 航天 飞机 于 执行 任务 的 
第 16 天 ， 在 重新 进入 地 球 大 气 层 时 爆炸 了 。 我 们 现在 知道 ， 在 它 起 飞 时 ， 一 块 绝缘 泡沫 击 穿 了 
外 部 燃料 箱 。 


然而 ， 在 哥伦比亚 号 返航 前 ， 一 些 中 级 NASA 工程 师 就 已 经 报告 了 这 个 事件 ， 但 是 他 们 的 
意见 并 没有 得 到 重视 。 他 们 在 发 射 后 的 回顾 会 议 期间 通 过 监视 器 观察 到 了 泡沫 块 的 撞击 , 并 立即 
向 NASA 的 管理 人 员 报 告 。 不 过 他 们 被 告知 ， 泡 沫 问题 并 不 是 什么 新 鲜 事 。 在 以 前 的 发 射 中 ， 
泡沫 漂移 曾经 损坏 过 飞船 ,但 从 未 导致 重大 事故 。NASA 将 这 次 事件 定性 为 维护 问题 ,并 没有 采 
取 任 何 行动 。 直 到 最 后 事故 发 生 ， 一 切 都 晚 了 。 


Michael Roberto 、Richard M. J. Bohmer 和 Amy C. Edmondson 在 2006 年 《哈佛 商业 评论 》 的 
一 篇 文章 中 写 到 了 NASA 的 文化 是 怎样 造成 这 起 事故 的 。 他 们 描述 了 两 种 典型 的 组 织 结构 模型 : 
标准 化 模型 用 制度 和 系统 管理 一 切 , 包括 严格 遵守 时 间 表 和 预算 ; 实验 模型 在 一 种 类 似 于 研究 和 
设计 的 实验 室 文化 中 ， 对 每 天 的 每 次 实验 和 每 条 新 信息 进行 评估 和 辩论 。 
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他 们 观察 到 ,“ 当 企业 在 组 织 里 运用 错误 的 思维 方式 时 ， 就 会 陷入 困境 ( 这 决定 了 他 们 如 何 
处 理 不 明确 的 威胁 ， 用 本 书 的 术语 来 说 就 是 微弱 的 故障 信号 ) …… 到 了 20 世纪 70 年代，NASA 
营造 出 了 一 种 僵化 的 标准 化 文化 ， 向 国会 把 航天 飞机 宣传 为 一 种 可 重复 使 用 的 廉价 航天 器 ”。 
NASA 严格 遵从 流程 合 规 性 而 不 是 实验 模型 ， 对 每 条 信息 都 进行 评估 ， 确 认 没有 发 生 偏差 。 缺 乏 
持续 学 习 和 实验 的 后 果 是 很 可 怕 的 。 作 者 的 结论 是 , 文化 和 思维 模式 是 至 关 重 要 的 , 只 有 “ 齐 慎 ” 
远 远 不 够 。 他 们 写 道 :“ 单 靠 警 惕 不 能 防止 不 明确 的 威胁 ( 微弱 故障 信号 ) 变 成 代价 惨重 的 事故 
(有 时 是 翡 剧 )。” 


我 们 在 技术 价值 流 中 的 工作 就 如 同 太空 旅行 , 应 该 将 其 作为 基础 的 实验 性 尝试 , 并 以 这 种 方 
式 进行 管理 。 我 们 所 做 的 全 部 工作 都 是 潜在 的 重要 假设 和 数据 来 源 ， 而 不 是 重复 的 例行公事 或 对 
过 去 实践 的 验证 。 不 能 将 技术 工作 看 成 是 完全 标准 化 的 ， 力 图 实现 流程 合 规 。 相 反 ， 必 须 持续 不 
断 地 寻找 越 来 越 弱 的 故障 信号 ， 进 而 更 好 地 理解 和 管理 运 维 中 的 系统 。 






















































































19.5 ”重新 定义 失败 ， 鼓 励 评估 风险 


无 论 有 意 还 是 无 意 , 组 织 的 领导 者 都 会 通过 行动 来 加 强 组 织 文化 和 价值 观 。 审计 、 会 计 和 道 
德 专 家 长 期 以 来 一 直 认 为 ,“ 高 层 的 声音 ”可 能 意味 着 欺诈 和 其 他 不 道德 行径 。 为 了 加 强 学 习 和 


























评估 风险 的 文化 ,领导 者 需要 不 断 强调 : 每 个 人 都 应 该 坦然 面 对 失败 并 承担 责任 ， 并 能 够 从 失败 
中 学 习 。 





关于 失败 ， 来自 Netflix 的 Roy Rapoport 表示 : “《2014 年 DevOps 现状 报告 》 证 明 ， 高 效能 
DevOps 组 织 会 更 频繁 地 失败 和 犯错 误 。 这 不 但 是 可 以 接受 的 ， 更 是 组 织 所 需要 的 ! 你 甚至 可 以 
在 数据 中 看 出 这 一 点 : 如 果 高 效能 DevOps 组 织 的 变更 频率 是 平均 水 平 的 30 倍 ， 即 使 失败 率 只 
有 平均 水 平 的 一 半 ， 也 显然 有 更 多 故障 。” 


他 补充 说 :“ 我 和 一 个 同事 谈论 了 Netflix 刚刚 发 生 的 一 次 大 规模 服务 中 断 一 一 坦率 地 说 ， 这 
是 由 一 个 低级 错误 引发 的 。 事 实 上 ， 造 成 此 次 事故 的 工程 师 在 过 去 18 个 月 内 曾经 让 Netflix 宕 机 
两 次 。 然 而 他 是 我 们 绝 不 会 开除 的 人 。 在 过 去 的 18 个 月 里 ， 这 名 工程 师 大 幅 改进 了 运 维 和 自动 
化 的 状态 ， 进 步 不 是 以 “ 千 米 ”而 是 以 “ 光 年 ”衡量 , 成绩 突 出 。 他 的 工作 成 果 使 我 们 每 天 能 够 
安全 地 进行 部 署 ， 而 且 他 亲自 执行 了 大 量 的 生产 环境 部 署 。” 


他 总 结 道 :“DevOps 必须 允许 这 种 创新 ， 并 接受 因此 带 来 的 风险 。 是 的 ， 在 生产 环境 中 会 遇 
到 更 多 的 失败 。 但 这 是 一 件 好 事 ， 不 应 该 惩罚 。 

































































19.6 在 生产 环境 注入 故障 来 恢复 和 学 习 


正如 本 音 开 头 介绍 的 ， 将 错误 注入 到 生产 环境 中 ( 如 使 用 “捣乱 猴 ”) 是 提高 可 恢复 性 的 一 
种 方式 。 本 节 描 述 在 系统 中 演练 和 注入 故障 的 过 程 ， 以 确保 正确 地 设计 和 构建 系统 ,进而 让 故障 
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以 特定 和 受 控 的 方式 发 生 。 我 们 通过 定期 ( 甚至 持续 不 断 地 ) 执行 测试 来 确保 系统 正常 失败 。 


《发 布 ! 软件 的 设计 与 部 署 》" 的 作者 Michael Nygard 评论 :“ 就 像 在 汽车 里 构建 撞击 缓冲 
来 吸收 碰撞 的 能 量 、 保 护 乘客 安全 一 样 ， 你 可 以 决定 哪些 系统 功能 是 不 可 或 缺 的 ,并 内 建 使 危 
远离 这 些 功 能 的 失败 模式 。 如 果 不 设 计 失 败 模 式 ， 就 会 出 现 不 可 预测 的 情况 ， 通 常 很 危险 。 


可 恢复 性 要 求 我 们 首先 定义 故障 模式 , 然后 进行 测试 ,以 确保 这 些 故障 模式 是 按照 设计 运行 
的 。 一 种 做 法 是 ,在 生产 环境 中 注入 故障 ,并且 演练 大 规模 故障 。 这 样 才能 自信 系统 在 事故 发 生 
时 能 够 自我 恢复 ， 在 理想 情况 下 ， 甚 至 不 会 影响 到 客户 。 


关于 2012 年 Netflix 和 AWS 美国 东部 区 服务 全 面 中 断 的 故事 只 是 其 中 一 个 例子 ,关于 Netflix 
的 可 恢复 性 ， 还 有 一 个 更 有 趣 的 案例 。 在 “2014 年 亚马逊 EC2 服务 器 大 规模 重启 ”事件 中 ， 为 
了 给 Xen 安装 紧急 安全 补丁 ， 将 近 10% 的 亚马逊 EC2 服务 器 必须 重新 启动 。Netflix 的 云 数据 库 
工程 师 Christos Kalantzis 回忆 :“ 得 到 有 关 EC2 紧急 重新 启动 的 通知 时 ， 我 们 的 下 巴 都 快 掉 到 地 
上 了 。 当 我 们 拿 到 受 影响 的 Cassandra 节点 清单 时 , 我 觉得 很 担心 ”"。 但 是 ， Kalantzis 继续 说 :“ 然 
后 我 想起 了 所 有 经 历 过 的 “捣乱 猴 ” 演 习 。 我 的 反应 是 :“ 放 马 过 来 !’。” 


结果 再 次 让 人 感到 惊讶 。 在 生产 环境 里 有 2700 多 个 Cassandra 节点 ,其 中 的 218 个 重新 启动 
了 ,22 个 没有 启动 成 功 。 来 自 Netflix 混乱 工程 部 门 ( Chaos Engineering ) 的 Kalantzis 和 Bruce Wong 
写 道 :“Netflix 在 那个 周末 里 的 宕 机 时 间 为 0 秒 。 即 使 在 持久 化 的 (数据库 ) 层 ， 也 要 定期 反复 
执行 故障 演练 ， 这 应 该 是 所 有 公司 可 恢复 性 规划 的 一 部 分 。 如 果 Cassandra 数据 库 部 门 没有 参与 
“捣乱 猴 ” 演 练 的 话 ， 这 个 故事 的 结局 可 能 会 大 为 不 同 。 


更 让 人 吃惊 的 是 ,不仅 没有 人 由 于 Cassandra 节点 的 事故 而 加 班 工作 ， 他 们 的 办 公 室 里 甚至 
连 人 都 没有 一 一 他 们 都 去 好 莱 坞 参加 一 个 庆祝 收购 里 程 碑 的 聚会 了 。 这 个 例子 从 另 一 个 方面 说 
明 , 主动 关注 可 恢复 性 意味 着 公司 能 够 以 常规 、 平 常 的 方式 处 理 可 能 在 大 多 数组 织 里 引发 危机 的 
事件 。”( 见 附录 9。) 





区 区 



































































































































19.7 创建 故障 演练 日 


本 节 将 描述 一 种 特别 的 灾难 恢复 演练 ， 称 为 演练 日 (Game Day )。 这 个 词 的 流行 有 赖 于 
Velocity 大 会 社区 联合 创始 人 兼 Chef 联 合 创始 人 Jesse Robbins 在 亚马逊 的 工作 。 当时 他 负责 保障 








关于 《发 布 ! 软件 的 设计 与 部 署 》 详 见 http://www.ituring.com.cn/book/1606。 一 一 编者 注 

@@ 他 们 实现 的 特定 架构 模式 包括 快速 失败 (设置 主动 的 超时 ,从 而 使 失败 的 组 件 不 会 造成 整个 系统 中 止 )、 回 退 ( 设 
计 每 个 功能 ,使 其 能 降级 或 回 退 到 较 低 的 质量 表现 ) 以 及 功能 移 除 ( 从 任何 运行 缓慢 的 特定 页 面 上 删除 非 关 键 功 
能 ， 以 防 用 户 体验 受到 影响 )。 除了 在 AWS 宕 机 期 间 保持 了 业务 连续 性 以 外 ，Netflix 团队 创造 的 恢复 力 还 有 一 个 
令 人 惊奇 的 例子 。 在 AWS 宕 机 事故 发 生 6 个 小 时 以 后 ，Netflix 才 对 外 声明 了 一 级 ( Sev 1 ) 事故 , 假设 AWS 服 
务 最 终 将 恢复 正常 (“AWS 会 恢复 的 …… 一 般 都 是 这 样 ， 对 吧 ? ”)。 在 AWS 服务 中 断 6 小 时 以 后 ， 他 们 才 启 动 
了 所 有 的 业务 连续 性 流程 。 
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网 站 可 用 性 的 计划 , 亚马逊 内 部 称 他 为 “灾难 大 师 ”。 演练 日 的 概念 来 源 于 弹性 工程 学 科 。 Robbins 
将 弹性 工程 定义 为 “ 旨 在 通过 向 关键 系统 中 注入 大 规模 故障 来 提高 可 恢复 性 的 练习 ”。 


Robbins 观察 到 :“ 在 开始 设计 大 规模 的 系统 时 , 理想 情况 是 在 完全 不 可 靠 的 组 件 之 上 构建 可 
靠 的 软件 平台 。 这 让 你 处 于 复杂 故障 不 可 避免 也 不 可 预测 的 境地 。” 


因此 , 我 们 必须 尽 可 能 确保 发 生 故 障 时 整个 系统 服务 依然 可 以 持续 运行 , 理想 情况 下 不 会 发 
生 危 机 ， 甚 至 不 需要 人 工 干预 。 正 如 Robbins 所 说 :“ 如 果 没 有 让 一 个 服务 在 生产 环境 里 宕 机 过 ， 
它 就 不 算 真 正 被 测试 过 。” 


演练 日 的 目标 是 帮助 团队 模拟 和 演练 事故 , 使 其 具备 实战 能 力 。 首先 , 计划 一 个 灾难 性 事件 ， 
例如 模拟 整个 数据 中 心 在 未 来 的 茶 个 时 间 点 遭 到 破坏 。 然 后 , 给 团队 准备 的 时 间 来 消除 所 有 的 单 
点 故障 ， 并 创建 必要 的 监控 程序 和 故障 切换 程序 等 。 


团队 在 演练 日 定义 并 执行 各 种 演习 。 例 如 ， 进 行 数据 库 故 障 转移 〈 即 模拟 数据 库 故 障 ， 并 保 
证 辅助 数据 库 能 正常 工作 )， 或 通过 中 断 重 要 的 网 络 连接 ， 在 既定 的 流程 中 暴露 问题 。 在 此 过 程 
中 遇 到 的 任何 问题 和 困境 ， 都 要 重新 识别 、 解 决 和 测试 。 


我 们 在 预定 的 时 间 执 行 中 断 。 正 如 Robbins 所 措 述 的 ， 他 们 在 亚马逊 “会 不 作 提 前 通知 ,， 直 
接 关 掉 一 个 机 房 的 电源 ， 然 后 让 系统 自然 地 发 生 故 障 ， 并 [允许 ] 人 们 跟随 其 流程 操作 ”。 


通过 这 样 做 , 我 们 开始 暴露 系统 中 的 潜在 缺陷 。 正 是 因为 在 系统 中 注入 了 故障 , 才 让 这 些 问 
题 译 出 水 面 。Robbins 解释 :“ 你 可 能 会 发 现 ， 对 于 恢复 过 程 至 关 重要 的 某 些 监控 或 管理 系统 , 终 
将 在 故障 编排 的 一 个 步骤 里 关闭 。[ 或 者 ] 你 会 发 现 一 些 未 知 的 单 点 故障 。” 然 后， 以 越 来 越 深 刻 和 
复杂 的 方式 进行 演练 ， 目 的 是 使 人 们 觉得 ， 这 就 是 日 常 工作 的 一 部 分 。 


通过 在 演练 日 逐步 创建 更 具 恢 复 力 的 服务 和 更 高 程度 的 确定 性 , 我 们 能 在 发 生意 外 事件 时 恢 
复 正 常 运行 ， 同 时 创造 更 多 的 学 习 机 会 和 更 具 可 恢复 性 的 组 织 。 

谷歌 的 灾难 恢复 计划 (DiRT ) 是 模拟 灾难 的 一 个 优秀 例子 。Kripa Krishnan 是 谷歌 的 技术 计 
划 总 监 ; 在 本 书写 作 时 ,他 已 经 领导 该 计划 超过 了 7 年。 在 此 期 间 ， 他 们 模拟 了 硅谷 的 地 震 ， 导 
致 整个 山 景 城 园 区 断 网 ; 主要 数据 中 心 完全 断 电 ; 甚至 外 星人 攻击 工程 师 居 住 的 城市 。 

正如 Krishnan 所 写 ,“ 测 试 中 一 个 经 常 被 忽略 的 领域 是 业务 流程 和 通信 。 系 统 和 流程 是 高 度 
纠缠 在 一 起 的 , 把 对 系统 的 测试 和 对 业务 流程 的 测试 隔离 开 来 是 不 现实 的 : 业务 系统 中 的 一 个 故 
障 会 影响 到 业务 流程 ， 反 过 来 ， 正 常 运行 的 系统 离开 恰当 的 人 员 也 不 会 太 有 用 ”。 


在 这 些 灾难 中 学 到 的 东西 包括 : 
口 当 网 络 连接 中 断 时 ， 做 不 到 用 工程 师 的 工作 站 进行 失效 备 援 ; 
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口 工程 师 不 知道 如 何 接 和 电话 会 议 桥 接 需 或 只 能 容纳 50 人 的 桥接 右 ， 抑 或 需要 一 个 新 的 电 

话 会 议 提 供 商 ， 好 跑 掉 那个 让 电话 会 议 中 所 有 人 等 待 的 工程 师 ; 

口 当 数据 中 心里 备用 发 电机 的 柴油 耗 尽 时 ， 没 有 人 知道 通过 供应 商 进行 紧急 采购 的 流程 ， 
导致 有 人 使 用 个 人 信用 卡 购买 了 价值 5 万 美元 的 柴油 。 

通过 在 受 控 的 情况 下 引入 故障 , 我们 可 以 实践 、 建 立 所 需 的 操作 手册 。 演 练 日 的 另 一 个 输出 

是 ， 人 们 确实 知道 了 应 该 给 谁 打 电 话 、 应 该 与 谁 交谈 。 这 样 会 让 他 们 与 其 他 部 门 的 人 建立 关系 ， 

以 便 在 发 生 事故 时 一 起 工作 ， 将 有 意识 的 行动 转变 为 下 意识 的 行动 ， 然 后 进一步 成 为 惯例 。 






































19.8 小 结 


为 了 创造 能 够 实现 组 织 学 习 的 公正 文化 , 我 们 必须 重新 描述 所 谓 的 失败 。 当 我 们 正确 处 理 错 
误 时 , 复杂 系统 中 固有 的 错误 能 够 为 我 们 创造 一 个 动态 的 学 习 环境 , 其 中 的 所 有 利益 干系 人 都 有 
足够 的 安全 感 来 提出 想法 和 见解 ， 而 且 团 队 能 够 更 容易 地 从 未 能 如 期 执行 的 项 目 中 恢复 。 


不 指责 的 事后 分 析 会 议和 在 生产 环境 中 注入 故障 都 强化 了 这 样 一 种 文化 : 每 个 人 都 应 该 坦然 
面 对 失 败 , 承担 责任 , 并 从 失败 中 学 习 。 事实 上 ， 当 事故 数量 大 幅 降 低 时 ,容忍 度 同 时 也 下 降 了 ， 
从 而 让 我 们 能 够 继续 学 习 。 正 如 Peter Senge 所 说 :“ 组 织 唯一 的 可 持续 竞争 优势 就 是 比 对 手 更 快 
的 学 习 能 























将 局 部 经 验 转化 为 全 局 改进 

















在 上 一 章 中 , 我 们 讨论 了 鼓励 每 个 人 通过 不 指责 的 事后 分 析 会 议 探讨 错误 和 事故 , 从 而 建立 
一 种 安全 的 学 习 文化 。 还 探索 了 发 现 并 响应 微弱 的 故障 信号 , 以 及 加 强 和 奖励 实验 与 冒险 。 此 外 ， 
通过 定期 开展 故障 场景 演练 , 我 们 帮助 提高 了 工作 系统 的 弹性 ,而 且 通 过 发 现 并 修复 系统 的 潜在 
缺陷 ， 提 高 了 系统 的 安全 性 。 


本 章 将 建立 一 种 机 制 ， 在 整个 组 织 的 全 局 范围 里 共享 和 应 用 局 部 获得 的 新 经 验 和 优化 方法 ， 


从 而 大 大 提高 组 织 的 全 局 知识 和 改进 效果 。 这 将 提升 整个 组 织 的 实践 状态 , 使 每 个 人 都 在 工作 中 
从 组 织 积 累 的 经 验 里 受益 。 












































20.1 使 用 聊天 室 和 聊天 机 器 人 自动 积累 组 织 知识 
许多 组 织 已 经 建立 了 用 于 促进 内 部 快速 沟通 的 聊天 室 。 不 过 , 聊天 室 也 可 以 用 于 触发 自动 化 


运 维 。 

这 个 技术 实践 最 早 始 于 GitHub 的 ChatOps 方 法 , 目标 是 将 自动 化 工具 集成 到 聊天 室 的 会 话 中 ， 
帮助 确立 工作 透明 度 和 创建 工作 文档 。GitHub 的 系统 工程 师 Jesse Newland 称 :“ 即 使 是 团队 里 的 
新 人 ,也 可 以 查看 聊天 日 志 ， 了 解 所 有 工作 是 怎样 完成 的 。 你 就 像 全 程 在 和 他 们 进行 结对 编程 。” 


他 们 发 明了 一 个 名 叫 Hubot 的 聊天 应 用 软件 , 用 来 在 聊天 室 中 和 运 维 团队 进行 交互 。 人 们 可 
以 通过 发 送 指令 ( 例如,“@hubot deploy owl to production”) 来 指示 它 执 行 某 些 运 维 操作 。 操 作 
的 结果 也 会 由 它 发 送 回 聊天 室 。 


在 聊天 室 中 自动 化 执行 操作 具有 许多 优点 ( 和 通过 命令 行 运行 自动 化 脚本 相 比 ): 


口 每 个 人 都 能 看 到 发 生 的 一 切 ; 

口 新 来 的 工程 师 也 可 以 看 到 团队 的 日 常 工作 及 其 执行 方式 ; 
口 看 到 其 他 人 互相 帮助 时 ， 人 们 也 会 更 倾向 于 寻求 帮助 ; 
口 建立 起 组 织 学 习 ， 知 识 得 到 快速 积累 。 
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此 外 ， 除 了 以 上 得 到 广泛 验证 的 好 处 之 外 ， 聊 天 室 还 以 固有 的 方式 记录 并 公开 所 有 的 沟通 
信息 。 相 比 之 下 ,电子 邮件 的 交流 在 默认 情况 下 是 私密 的 ,而 且 其 中 的 信息 无 法 方便 地 在 组 织 
传播 。 

将 自动 化 运 维和 聊天 室 集成 在 一 起 有 助 于 记录 和 分 享 我 们 的 观察 和 问题 解决 过 程 , 使 其 成 为 
日 常 工作 中 不 可 分 市 的 一 部 分 。 这 还 加 强 了 透明 、 协 作 的 文化 ， 有 益 于 我 们 所 有 的 工作 。 


这 也 是 一 种 将 局 部 学 习 转 化 为 全 局 知识 的 极其 有 效 的 方法 。GitHub 的 所 有 运 维 人 员 都 是 远 
程 工作 的 一 一 事实 上 ， 没 有 工程 师 在 同一 个 城市 工作 。 正 如 GitHub 前 运 维 副 总 裁 Mark Imbriaco 
所 说 :“ 在 GitHub， 没 有 能 让 人 们 碰面 谈话 的 饮水 机 。 聊 天 室 就 是 这 台 “ 饮 水 机 ”。 

GitHub 的 Hubot 能 够 触发 各 种 自动 化 工具 ， 包 括 Puppet、Capistrano 、Jenkins 、Resque (一 
个 Redis 维护 的 、 创 建 后 台 作 业 队 列 的 库 ) 和 GraphMe ( 从 Graphite 生成 图 形 )。 

通过 Hubot 执行 的 操作 包括 检查 服务 的 健康 状况 ， 执 行 Puppet 推送 或 在 生产 环境 中 部 署 代 
码 ， 以 及 当 服务 进入 维护 模式 时 ， 屏 蔽 它 的 监控 警报 。 重 复 执行 的 操作 都 可 以 用 Hubot 来 完成 。 
例如 , 在 部 署 失败 时 调 出 冒 烟 测 试 日 志 , 将 生产 服务 器 从 服务 群集 里 撤 出 , 将 生产 的 前 端 服 务 回 
退 到 之 前 的 版 本 ,其 至 向 值班 工程 师 道歉 。" 

类 似 地 , 不 管 是 向 源 代码 库 提交 代码 ,还 是 触发 生产 环境 部 署 的 命令 ， 都 会 向 聊天 室 发 送 消 
息 。 此 外 ， 随 着 部 署 流水 线 中 不 断 发 生变 动 ， 所 有 相关 状态 信息 也 都 会 发 布 在 聊天 室 中 。 


聊天 室 里 典型 的 快速 信息 交流 如 下 。 


“@sr: @jnewland， 你 是 怎么 获取 那 一 大 批 安 装 源 的 清单 的 ? 用 disk hogs 还 是 其 
他 什么 ? ” 
















































































“@jnewland: /disk-hogs” 
Newland 还 注意 到 ， 对 于 曾经 在 项 目 中 问 过 的 问题 ， 现 在 很 少 再 有 人 问 了 。 例 如 工程 师 可 能 

会 问 的 “如 何 进行 部 署 ”“ 你 正在 部 署 吗 ? 还 是 应 该 我 来 做 ”或 “现在 的 负载 怎么 样 "。 
在 Newland 描述 的 所 有 好 处 里 ( 包括 帮助 新 工程 师 更 快 地 融和 人 ， 提 高 所 有 工程 师 的 工作 效 
率 )， 他 认为 最 重要 的 是 : 运 维 工 作 变 得 更 加 人 性 化 ， 运 维 工程 师 能 够 更 快速 、 更 容易 地 发 现 问 
题 和 互相 帮助 。 


GitHub 创造 的 协作 环境 能 够 将 在 局 部 学 习 到 的 知识 转化 为 整个 组 织 的 经 验 。 随 后 ， 我 们 将 
探讨 如 何 创建 和 加 速 传播 组 织 学 习 。 






























































(QD Hubot 经 常 通过 调用 shell 脚本 的 方式 执行 任务 。shell 脚本 可 以 在 任何 地 方 的 聊天 室 使 用 ， 包 括 工 程 师 手 机 上 的 
聊天 室 。 
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20.2 ”软件 中 便于 重用 的 自动 化 、 标 准 化 流程 


我 们 经 常 把 架构 、 测 试 、 部 署 和 基础 设施 管理 的 标准 和 流程 编写 成 义 ， 存储 为 Word 文档 ， 
并 上 传 到 某 个 服务 器 里 。 然而 问题 是 , 那些 正在 构建 新 应 用 或 新 环境 的 工程 师 往往 不 知道 这 些 文 
档 的 存在 ,或 者 根本 没有 时 间 按 照 文 档 中 的 标准 去 实施 。 结 果 就 是 ， 他 们 创建 了 自己 的 工具 和 
流程 ， 结 局 令 人 失望 : 应 用 和 环境 脆弱 、 不 安全 、 无 法 维护 ， 而 且 运 行 、 维 护 和 更 新 的 成 本 都 









































与 其 将 专业 知识 写 到 Word 文档 中 ， 倒 不 如 将 完整 包含 组 织 学 习 和 知识 的 各 种 标准 和 流程 转 
化 为 一 种 便于 执行 的 形式 , 使 之 更 容易 重用 。 实 现 这 种 知识 重用 的 一 种 好 方法 是 : 将 其 保存 在 集 
中 的 源 代码 库 里 ， 使 之 成 为 所 有 人 都 可 以 搜索 和 使 用 的 工具 。 

2013 年 ， 曾 任 GE Capital 首席 架构 师 的 Justin Arbuckle 说 :“ 我 们 需要 创建 一 种 机 制 ， 使 团 
队 能 够 轻松 地 遵从 国家 、 地 区 政策 ,以 及 横 跨 数 十 个 监管 框 染 的 行业 法 规 , 涉及 的 范围 包括 数 十 
个 数据 中 心里 数 万 台 服 务 器 上 运行 的 数 千 个 应 用 程序 。” 

他 们 创建 了 一 种 称 为 ArchOps 的 机 制 ,“ 使 工程 师 成 为 构建 者 ， 而 不 是 砌 砖 工 。 通 过 将 设计 
标准 转换 成 可 以 自动 化 执行 的 蓝图 ， 使 任何 人 都 能 轻松 地 使 用 ， 我 们 实现 了 副产品 的 一 致 性 ”。 

通过 将 手动 操作 流程 转换 为 可 自动 化 执行 的 代码 , 流程 得 到 了 广泛 采纳 , 并 为 所 有 的 使 用 者 
提供 了 价值 。Arbuckle 总 结 道 :“ 组 织 的 实际 合 规 性 与 其 用 代码 表达 政策 的 程度 成 正比 。” 

把 自动 化 流程 变 为 实现 目标 的 最 简单 方式 , 可 以 让 实践 得 到 广泛 采纳 一 一 甚至 可 以 考虑 将 其 
转换 为 由 组 织 支 持 的 共享 服务 。 






























































20.3 ”创建 全 组 织 共享 的 单一 源 代码 库 


在 全 企业 范围 内 建立 共享 的 源 代码 库 是 一 种 用 来 整合 组 织 内 所 有 局 部 发 现 的 强大 机 制 。 当 源 
代码 库 ( 例如 , 共享 库 ) 中 的 任意 东西 更 新 时 , 都 会 被 自动 地 迅速 传播 给 所 有 调用 它 的 其 他 服务 ， 
并 且 通 过 每 个 团队 的 部 署 流水 线 进行 集成 。 

谷歌 是 在 组 织 范围 内 应 用 共享 源 代码 库 的 最 大 企业 之 一 。 截 至 2015 年 ， 谷 歌 的 单一 共享 源 
代码 库存 储 了 10 亿 多 个 文件 , 超过 20 亿 行 代码 。25 万 名 工程 师 都 在 使 用 这 个 代码 库 , 涵盖 了 全 
部 的 谷歌 产品 : 谷歌 搜索 、 谷 歌 地 图 、 谷 歌 文 档 、Googlet、 谷 歌 日 历 、Gmail 和 YouTube 等 。” 

一 个 宝贵 的 成 果 是 : 工程 师 们 可 以 利用 组 织 内 每 个 人 的 多 元 化 专业 知识 。 负责 开发 者 基础 设 
施 团队 的 谷歌 工程 经 理 Rachel Potvin 告诉 《 连 线 》 杂 志 ， 每 个 谷歌 工程 师 都 可 以 访问 “大 量 有 价 
值 的 库 ”， 因 为 “需要 的 一 切 几 乎 都 已 经 完成 了 ”。 















































QD Chrome 和 Android 项 目 驻 留 在 单独 的 源 代 码 库 中 ， 有 些 需要 保密 的 算法 ( 如 PageRank ) 仅 对 某 些 团队 开放 。 
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此 外 ,谷歌 开发 者 基础 设施 团队 的 工程 师 Eran Messeri 解释 ， 使 用 单一 源 代 码 库 的 一 个 优点 
， 每 个 用 户 都 可 以 方便 地 访问 到 所 有 最 新 的 代码 ， 不 需要 进行 协调 。 


我 们 保存 在 共享 源 代码 库 里 的 不 仅 是 源 代码 ， 还 有 包含 其 他 学 习 经 验 和 知识 的 工件 : 


口 程序 库 、 基 础 设施 和 环境 ( Chef 的 配方 文件 、Puppet 类 文件 等 ) 的 配置 标准 ; 
口 部 署 工 具 ; 
口 测试 标准 和 工具 ， 包 括 安全 方面 ; 
口 部 署 流水 线 工 具 ; 

口 监测 和 分 析 工 具 ; 

口 教程 和 标准 。 


通 这 个 代码 库 汇 聚 和 分 享 知 识 是 一 种 传播 知识 的 强大 机 制 。 正 如 Randy Shoup 描述 的 :“ 防 
止 谷 歌 发 生 故 障 的 最 强大 机 制 就 是 单一 代码 库 。 每 当 有 人 向 代码 库 里 提交 更 新 时 , 都 会 触发 一 个 
新 的 构建 ， 它 使 用 的 所 有 依赖 也 都 是 最 新 的 。 一 切 都 是 由 源 代 码 构建 而 成 的 ， 而 不 是 运行 时 的 动 
态 链接 一 一 总 是 只 有 单一 版 本 的 库 可 用 , 也 就 是 当前 使 用 的 那个 , 而 它 是 在 构建 的 过 程 中 静态 链 
接 的 。” 


Tom Limoncelli 是 《 云 系统 管理 : 大 规模 分 布 式 系统 设计 与 运营 》 一 书 的 合 著者 ， 曾 经 是 谷 
歌 的 站 点 可 靠 性 工程 师 。 他 在 书 中 指出 ， 为 整个 组 织 提供 单一 代码 库 的 价值 难以 言喻 。 


你 可 以 编写 一 个 工具 一 次 ， 并 将 其 用 于 所 有 项 目 。 你 100% 精 确 地 了 解 谁 依赖 于 某 
个 程序 库 ; 因此 ， 你 可 以 重 构 它 ， 而 且 100% 确 定 谁 会 受到 影响 、 谁 需要 为 此 做 测试 。 
我 也 许 还 能 列举 一 百 多 个 例子 。 我 无 法 用 语言 表达 它 给 谷歌 带 来 了 多 大 的 竞争 优势 。 


在 谷歌 ， 每 个 程序 库 ( 例如 ，libc、OpenSSL 以 及 内 部 开发 的 库 ， 如 Java 线程 库 ) 都 有 一 个 
所 有 者 。 他 不 仅 要 保证 这 个 库 的 成 功 编译 ， 而 且 要 让 所 有 依赖 它 的 项 目 都 通过 测试 ， 很 像 真 实 世 
界 里 的 图 书 管 理 员 。 该 所 有 者 还 负责 将 每 个 项 目 迁 移 到 下 一 个 版 本 。 


看 一 个 现实 中 的 例子 。 一 个 组 织 在 生产 环境 中 运行 的 Java Struts 框架 库 有 81 个 不 同 的 版 
本 一 一 除了 一 个 版 本 之 外 ， 其 余 80 个 都 具有 严重 的 安全 漏洞 ， 它 们 各 上 自 的 怪癖 和 特性 给 运 维 带 
来 了 极 大 的 负担 和 压力 。 此 外 , 这 些 差异 使 版 本 升级 充满 风险 和 不 安全 因素 ， 导 致 开发 人 员 不 原 
意 升 级 。 恶 性 循环 由 此 开始 。 

单一 源 代 码 库 基 本 上 解决 了 这 个 问题 ， 再 加 上 开展 自动 化 测试 , 使 所 有 团队 都 能 安全 、 自 信 
地 迁移 到 新 版 本 。 


如 果 不 能 构建 单一 的 源 代码 树 ( 源 代码 库 )， 就 必须 找到 另 一 种 维护 程序 库 的 方法 ， 从 而 保 
证 依赖 程序 库 的 都 是 已 知 的 可 用 版 本 。 例 如 ， 可 能 要 搭建 一 个 全 组 织 范围 的 仓库 ， 如 Nexus、 
Artifactory 或 者 一 个 Debian 或 RPM 库 , 然后 针对 已 知 的 安全 漏洞 同时 更 新 这 些 仓 库 和 生产 系统 。 
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20.4 ”运用 自动 化 测试 记录 和 交流 实践 来 传播 知识 


当 整 个 组 织 都 使 用 了 共享 程序 库 时 , 我 们 应 该 能 够 快速 传播 专业 知识 和 改进 方法 。 确保 这 些 
程序 库 里 有 大 量 的 自动 化 测试 ， 意 味 着 这 些 库 能 够 自动 记录 并 显示 其 他 工程 师 是 如 何 使 用 它们 的 。 


如 果 采 用 测试 驱动 开发 (TDD ) 实践 ， 即 在 编写 代码 之 前 编写 自动 化 测试 , 好 处 是 测试 几乎 
全 部 自动 化 。 这 个 原则 将 测试 套件 变 成 活跃 、 保 持 更 新 的 系统 规范 。 任 何 想 知道 如 何 使 用 系统 的 
工程 师 都 可 以 查看 测试 套件 ， 找 到 系统 API 的 可 行使 用 示例 。 


理想 情况 下 ， 每 个 程序 库 都 有 一 个 所 有 者 或 支持 团队 ， 他 们 拥有 相关 的 知识 和 专长 。 此 外 ， 
我 们 应 该 (最 好 ) 只 允许 在 生产 环境 中 使 用 一 个 版 本 , 确保 生产 的 一 切 都 用 到 了 组 织 的 最 佳 集体 
知识 。 

在 这 个 模型 中 , 程序 库 的 所 有 者 还 需要 帮助 每 个 依赖 它 的 团队 安全 地 从 一 个 版 本 迁移 到 下 一 
个 版 本 。 这 反 过 来 要 求 我 们 对 所 有 依赖 它 的 系统 进行 综合 的 自动 化 测试 和 持续 集成 ,从 而 迅速 发 
现 回归 误差 。 

为 了 更 快 地 传播 知识 , 还 可 以 为 每 个 程序 库 或 服务 建立 讨论 组 或 聊天 室 。 任何 有 问题 的 人 都 
可 以 在 此 得 到 其 他 用 户 的 反馈 ,响应 速度 通常 比 开发 人 员 还 要 快 。 

相 比 分 散在 组 织 各 处 的 专业 知识 ， 通 过 使 用 这 种 类 型 的 沟通 工具 能 够 促进 知识 和 经 验 的 交 
流 ， 确 保 员工 在 问题 和 新 模式 上 互相 帮助 。 



































































































































20.5 ”通过 确定 非 功 能 性 需求 来 设计 运 维 

当 开 发 部 门 跟 进 下 游 工 作 、 参 与 生产 事故 的 解决 过 程 时 , 应 用 程序 的 可 维护 性 就 会 设计 得 更 
好 。 此 外 ， 当 我 们 为 了 适应 快速 的 流动 和 可 部 署 性 ， 开 始 谨慎 地 设计 代码 和 应 用 程序 时 ， 可 能 会 
确定 一 套 非 功能 性 需求 ， 并 将 其 集成 到 所 有 的 生产 服务 中 。 


实现 这 些 非 功能 性 需求 会 使 我 们 的 生产 服务 更 易于 部 署 并 持续 运行 , 从 而 可 以 快速 地 检测 并 
修复 问题 ， 还 能 保证 在 服务 组 件 出 现 故障 时 正常 降级 。 下 面 是 应 该 具备 的 非 功能 性 需求 示例 : 


口 对 各 种 应 用 和 环境 进行 充分 的 遥测 ; 

口 准确 跟踪 依赖 关系 的 能 力 ; 

口 具有 弹性 并 能 正常 降级 的 服务 ; 

口 各 版 本 之 间 具 有 向 前 和 向 后 的 兼容 性 ; 
口 归档 数据 来 管理 生产 数据 集 的 能 

口 轻松 搜索 和 理解 各 种 服务 日 志 信 息 的 能 
口 通过 多 个 服务 跟踪 用 户 请 求 的 能 




































































20.7 ”确保 技术 选 型 有 助 于 实现 组 织 目标 195 








口 使 用 功能 开关 或 其 他 方法 实现 简便 、 集 中 式 的 运行 时 配置 。 


通过 确定 这 些 非 功能 性 需求 能 更 容易 地 把 集体 知识 和 经 验 运用 到 新 服务 和 已 有 服务 上 。 这 
些 责任 都 由 构建 服务 的 团队 承担 。 





























20.6 ”把 可 重用 的 运 维 用 户 故事 纳入 开发 


如 果 某 些 运 维 工作 无 法 完全 自动 化 或 自助 化 , 我 们 的 目标 是 尽量 将 这 种 反复 发 生 的 工作 变 得 
能 够 重复 、 确 定 地 执行 。 我 们 通过 将 所 需 工 作 标 准 化 、 使 其 尽 可 能 自动 化 并 且 记 录 下 所 做 工作 来 
做 到 这 一 点 ， 从 而 使 产品 团队 能 够 最 好 地 为 这 种 活动 建言 献策 。 


与 其 手动 搭建 服务 器 ,然后 按照 检查 清单 逐条 核对 并 在 生产 环境 里 投产 上 线 , 不 如 尽 可 能 地 
自动 化 这 些 工 作 。 如 果 某 些 操作 步骤 是 不 能 自动 化 的 (例如 ， 手动 进行 服务 器 上 架 ， 然 后 让 网 络 
组 连接 电缆 )， 就 应 该 将 工作 交接 内 容 定义 得 尽量 清晰 ， 以 缩短 前 置 时 间 和 错误 。 这 也 便于 以 后 
更 好 地 计划 和 安排 这 些 步骤 。 例 如 ， 可 以 使 用 诸如 Rundeck 之 类 的 工具 来 自动 执行 工作 流 , 或 者 
使 用 JIRA 或 ServiceNow 等 工 单 系统 。 


理想 情况 下 ， 对 于 所 有 反复 发 生 的 运 维 工作 ， 都 要 明白 : 需要 做 什么 ， 需要 谁 去 执行 ， 完 成 
这 个 工作 的 所 有 步骤 ,等 等 。 例 如 ,“ 我 们 知道 一 次 高 可 用 性 群集 部 署 需 要 14 个 步 又 ,由 4 个 不 
同 的 团队 执行 。 最 近 5 次 进行 这 项 工作 时 ， 平 均 每 次 需要 3 天 时 间 ”。 


就 像 在 开发 阶段 中 创建 用 户 故 事 , 将 其 放 入 待 办 事项 然后 编码 实现 一 样 , 我 们 也 可 以 创建 定 
义 明 确 的 “ 运 维 用 户 故事 ”， 说 明 那 些 在 所 有 项 目 中 〈 例如 部 署 、 容 量规 划 、 安 全 性 加 固 等 ) 可 
以 重用 的 工作 活动 。 通 过 创建 这 些 明确 定义 的 运 维 用 户 故 事 ， 我 们 把 可 重复 的 IT 运 维 工作 和 相 
关 开 发 工作 共同 展现 出 来 ， 从 而 创造 更 好 的 工作 计划 和 更 多 的 可 重复 成 果 。 













































































20.7 ”确保 技术 选 型 有 助 于 实现 组 织 目标 


当 我 们 使 用 面向 服务 的 架构 , 并 且 目 标 之 一 是 最 大 化 开发 人 员 的 生产 力 时 , 小 型 服务 团队 可 
以 使 用 最 适合 特定 需求 的 语言 或 框架 来 构建 和 运行 服务 。 在 某 些 情况 下 , 这 是 我 们 实现 组 织 目标 
的 最 佳 方式 。 

然而 ， 有 时 会 出 现 相反 的 情况 。 例 如 只 有 一 个 团队 掌握 了 关键 服务 的 专业 技术 ,而 且 只 有 该 
队 才 能 进行 问题 的 变更 或 修复 , 这 就 形成 了 瓶颈 。 换 名 话说 , 我 们 可 能 已 经 优化 了 团队 生产 力 ， 
但 却 在 无 意 中 阻碍 了 组 织 目 标的 实现 。 

如 果 一 个 面向 职能 的 运 维 团队 负责 支持 服务 的 所 有 层面 , 这 种 问题 就 会 经 常 发 生 。 在 这 种 情 
况 下 ,为 了 确保 深入 研究 某 些 特定 的 技术 , 我 们 和 希望 运 维 团队 参与 生产 环境 的 技术 选 型 ， 或 者 不 
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让 他 们 对 没有 支持 的 平台 负责 。 


如 果 还 没有 开发 和 运 维 共同 制定 的 、 组 织 支 持 的 技术 清单 , 就 应 该 系统 地 研究 生产 环境 基础 
设施 和 服务 ， 以 及 当前 支持 的 底层 技术 ， 从 而 识别 出 造成 了 一 定 无 谓 故 障 和 计划 外 工作 的 技术 。 
我 们 需要 识别 有 下 列 特征 的 技术 : 


口 阻止 或 减 慢 了 工作 流 ; 

口 造成 了 不 成 比例 的 大 量 计划 外 工作 ; 

口 产生 了 不 成 比例 的 大 量 支持 请 求 ; 

口 与 我 们 所 需 的 架构 结果 ( 例如 吞吐 量 、 稳 定性 、 安 全 性 、 可 靠 性 和 业务 连续 性 ) 完全 不 
一 致 。 


通过 从 运 维 团队 文 持 的 技术 中 排除 这 些 有 问题 的 基础 设施 和 平台 , 运 维 团队 就 可 以 专注 于 最 
有 助 于 实现 组 织 全 局 目标 的 基础 设施 。 


Tom Limoncelli 说 过 :“ 我 在 谷歌 工作 时 ， 有 一 个 官方 编译 语言 、 一 个 官方 脚本 语言 和 一 个 官 
方 用 户 界面 (UI) 语言。 是 的 ， 尽 管 也 可 以 通过 某 些 方式 支持 其 他 语言 ， 但 坚持 这 “三 大 语言 ” 
意味 着 支持 程序 库 、 工 具 ， 以 及 更 便于 找到 合作 者 的 方式 .”" 这 些 标准 还 通过 代码 评审 流程 以 及 
内 部 平台 支持 的 语言 得 到 了 强化 。 


在 2015 年 的 DevOps 企业 峰会 上 , 惠普 首席 信息 官 Ralph Loura 在 与 Olivier Jacques 和 Rafael 
Garcia 的 合作 演讲 中 指出 : 


我 们 在 内 部 将 目标 描述 为 创建 “浮标 ,而 不 是 边界 ”。 我 们 不 是 严格 地 规定 每 个 人 
必须 恪守 的 边界 , 而 是 用 浮标 的 方式 指出 渠道 中 哪些 更 深层 次 的 领域 是 安全 和 获得 支持 
的 。 只 要 遵循 组 织 原则 ， 就 可 以 越过 浮标 。 毕 竟 ， 如 果 不 在 边缘 探索 和 测试 ， 如 何 获得 
下 一 个 有 助 于 成 功 的 创新 呢 ? 作为 领导 者 ， 我 们 需要 在 渠道 中 导航 ,做 出 标记 ， 从 而 让 
人 们 不 断 探索 浮标 之 外 的 地 方 。 



















































































* 案例 研究 * 
Etsy 对 新 技术 栈 的 标准 化 “2010) 


在 许多 应 用 DevOps 的 组 织 中 ， 开 发 人 员 都 会 讲述 同样 的 经 历 :“ 运 维 提供 不 了 我 
们 需要 的 东西 ， 所 以 只 能 自己 构建 和 支持 。” 然 而， 在 Etsy 转型 早期 ， 技 术 领 导 采 取 了 
相反 的 做 法 ， 大 量 削 减 了 在 生产 环境 中 支持 的 技术 。 









































Qa 谷歌 使 用 C++ 作为 官方 编译 语言 ， 使 用 Python ( 后 来 是 Go ) 作为 官方 脚本 语言 ， 并 使 用 Java 和 JavaScript ( 通过 
Google Web Toolkit ) 作为 官方 UI 语言 。 
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2010 年 ， 在 经 历 了 一 个 几乎 灾难 性 的 节假日 业务 高 峰 期 之 后 ，Etsy 团队 决定 大 量 
减少 生产 环境 中 的 技术 ， 有 具体 做 法 是 选 出 几 个 可 以 在 组 织 里 全 面 支持 的 技术 ， 并 将 其 
余 清 除 。” 


他 们 的 目标 是 标准 化 , 故意 减少 支持 的 基础 设施 和 配置 。 其 早期 决定 之 一 是 将 Etsy 
全 面 迁移 到 PHP 和 MySQL 平台 。 与 其 说 这 是 一 个 技术 决策 ， 不 如 说 是 一 个 哲学 决策 一 
一 他 们 希望 开发 和 运 维 都 能 够 理解 整个 技术 栈 ， 让 所 有 人 都 可 以 为 这 个 单一 平台 做 贡 
献 ， 并 且 让 每 个 人 都 能 够 阅读 、 重 构 和 修复 他 人 的 代码 。Etsy 当时 的 运营 总 监 Michael 
Rembetsy 回忆 ， 在 接 下 来 的 几 年 里 ,“ 我 们 在 生产 环境 中 停 用 了 一 批 优秀 的 技术 ， 其 中 
包括 lighttpd、Postgres、MongoDB、Scala、CoffeeScript、Python 以 及 很 多 其 他 技术 ”。 


同样 ,在 2010 年 将 MongoDB 引入 Etsy 的 功能 团队 开发 人 员 Dan McKinley 在 博客 
上 写 到 , 无 模式 数据 库 的 所 有 优势 都 被 它们 引发 的 运 维 问题 抵消 了 。 这 些 问题 涉及 日 志 
记录 、 图 形 绘制 、 监 控 、 生 产 逐 测 、 备 份 和 恢复 等 ,还 有 开发 人 员 通 常 不 需要 关心 的 大 
量 问题 。 最 终 的 结果 是 我 们 放弃 了 MongoDB ， 将 新 服务 都 迁移 到 目前 支持 的 MySQL 
数据 库 基 础 设施 上 来 。 


20.8 小 结 


本 章 介 绍 的 技术 能 将 一 点 一 滴 新 的 学 习 纳 入 组 织 的 集体 知识 , 并 成 倍 地 发 挥 其 效果 。 我 们 通 
过 主动 和 广泛 地 传播 新 知识 来 实现 这 个 目标 ， 例 如 采用 聊天 室 、 架 构 即 代码 、 共 享 源 代 码 库 、 技 
术 标 准 化 等 方法 。 这 样 做 不 仅 能 提升 开发 和 运 维 团队 ,更 能 提升 整个 组 织 , 因此 组 织 中 的 每 个 工 
作者 都 在 为 积累 集体 经 验 添砖加瓦 。 





























Q@ 当时 ，Etsy 使 用 了 PHP、lighttpd、Postgres、MongoDB、Scala、CoffeeScript、Python 以 及 许多 其 他 平台 和 语言 。 
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有 一 种 称 作 改善 闪电 战 (improvement blitz 或 kaizen blitz ) 的 实践 ， 是 丰田 生产 系统 的 重要 
组 成 部 分 ， 指 的 是 在 一 个 专门 集中 的 时 间 段 里 解决 特定 问题 ， 通 常 长 达 几 天 。Steven Spear 博士 
解释 :“ 改 善 闪 电 战 经 常 采 取 的 形式 是 ， 一 个 小 组 聚 在 一 起 ， 专 注 探 究 一 个 存在 问题 的 流程 ……: 
改善 闪电战 通常 持续 几 天 , 目标 是 优化 流程 , 方法 则 是 集中 地 让 流程 之 外 的 人 给 通常 在 流程 里 的 
人 提 建 议 。” 


Spear 观察 到 ， 这 个 团队 的 输出 通常 是 一 个 解决 问题 的 新 方法 ， 例 如 新 的 设备 布局 、 传 输 材 
料 和 信息 的 新 方法 、 更 加 井井有条 的 工作 空间 或 者 标准 化 的 工作 。 他 们 还 可 能 会 留 下 一 个 等 待 日 
后 变更 的 待 办 事项 清单 。 


DevOps 改善 闪电战 的 一 个 案例 是 在 塔 吉 特 公司 DevOps 道场 举行 的 每 月 挑战 计划 。 塔 吉 特 
运营 总 监 Ross Clanton 负责 加 速 DevOps 的 运用 。“ 技 术 创新 中 心 ”是 他 的 一 个 主要 方法 , 还 有 个 
更 广为人知 的 名 字 就 是 “DevOp 道场 ”。 


DevOps 道场 使 用 一 个 面积 约 1700 平方 米 的 开放 办 公 空 间 ， 供 DevOps 教练 帮助 塔 吉 特 技术 
队 提 升 实践 水 平 。 强 度 最 大 的 是 所 谓 的 “30 天 挑战 ”， 让 内 部 开发 团队 在 一 个 月 时 间 里 与 专职 
道场 教练 和 工程 师 一 起 工作 ,开发 团队 带 着 工作 进入 道场 ,目标 是 解决 长 期 困扰 他 们 的 内 部 问题 ， 
并 且 在 30 天 里 取得 突破 。 


在 整整 30 天 中 ， 他 们 针对 问题 与 道场 教练 密切 合作 一 一 规划 、 工 作 ， 并 在 为 期 两 天 的 冲刺 
中 做 演示 。 在 30 天 挑战 结束 以 后 ， 这 些 内 部 团队 又 会 回 到 各 自 的 业务 条 线 。 他 们 不 仅 解决 了 一 
个 重大 问题 ， 而 且 把 新 学 到 的 知识 带 回 了 团队 。 


Clanton 说 :“ 因 为 目前 只 能 容纳 8 个 团队 同时 进行 30 天 挑战 ， 所 以 选择 的 都 是 组 织 里 最 具 
战略 性 的 项 目 。 到 目前 为 止 , 我 们 已 经 通过 道场 实现 了 一 些 最 关键 的 能 力 , 包括 销售 网 点 ( POS )、 
库存 管理 、 定 价 和 促销 等 。 


通过 配备 全 职 道场 员工 并 且 只 专注 于 一 个 目标 ， 团 队 在 30 天 挑战 之 后 会 得 到 令 人 难以 置信 
的 提升 。 
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塔 吉 特 开发 经 理 RaviPandey 解释 :“ 过 去 , 我 们 需要 等 待 6 个 星期 才能 获得 测试 环境 现在， 
只 需要 几 分 钟 就 可 以 。 运 维 工程 师 与 我 们 并 肩 工 作 ， 帮 助 我 们 提高 生产 力 、 构 建 工具 ， 最 终 实 现 
目标 。 ”Clanton 补充 说 :“ 以 前 通常 需要 3 ~ 6 个 月 才能 完成 的 工作 ， 现 在 几 天 就 能 完成 的 情况 并 
不 少见 。 到 目前 为 止 ， 有 200 名 员工 通过 道场 进行 了 学 习 ， 共 完成 了 14 个 挑战 。 

道场 还 提供 较 低 强度 的 参与 模式 ， 其 中 包括 “内 速 构建 "， 指 的 是 多 个 团队 在 一 起 参加 一 次 
为 期 1~3 天 的 活动 ， 目 标 是 在 结束 时 交付 最 小 化 可 行 产品 (MVP ) 或 一 种 能 力 。 每 两 周 还 举行 
一 次 “开放 实验 室 "， 任 何人 都 可 以 来 道场 和 道场 教练 灾 谈 、 参 加 演示 或 接受 培训 。 

本 童 随后 介绍 多 种 方法 , 用 于 为 组 织 学 习 和 改进 预 留 时 间 , 以 及 进一步 将 投入 时 间 改 进 日 党 
工作 的 做 法 制度 化 。 









































21.1 偿还 技术 债务 的 制度 化 惯例 


本 节 介 绍 的 惯例 做 法 , 有 助 于 加 强 为 改进 工作 预 留 开 发 和 运 维 时 间 的 实践 ,如 非 功 能 性 需求 
和 自动 化 等 。 一 个 最 简单 的 方法 就 是 , 安排 和 进行 为 期 几 天 或 几 周 的 改善 闪电战 ,让 团队 里 的 每 
个 人 (或 整个 组 织 ) 自行 组 织 来 解决 关心 的 问题 一 一 不 允许 进行 任何 功能 性 工作 。 可 以 着 眼 于 代 
码 、 环 境 、 架 构 、 工 具 等 的 一 个 问题 点 。 这 些 团队 经 常 由 开发 、 运 维和 信息 安全 工程 师 组 成 ， 横 
跨 整个 价值 流 。 一 般 不 在 一 起 工作 的 团队 可 以 把 各 自 的 技能 和 努力 结合 起 来 ， 改 进 选 定 的 领域 ， 
然后 向 公司 中 的 其 他 人 展示 成 果 。 


除了 源 于 精益 的 术语 “改善 内 电 战 ”之 外 ， 为 改进 工作 而 专门 实行 的 惯例 还 有 春季 /秋季 大 
扫除 、 记 票 队 列 反 转 周 。 其 他 术语 还 包括 黑客 日 、 黑 客 马 拉 松 "和 20% 的 创新 时 间 等 。 和 遗憾 的 是 ， 
这 些 特 别 的 惯例 有 时 候 侧 重 于 产品 创新 和 为 新 的 市 场 想法 设计 原型 , 而 不 是 改进 工作 。 更 糟 的 是 ， 
它们 通常 只 针对 开发 人 员 一 一 这 与 改善 闪电 战 的 初衷 相去 甚 远 。 


我 们 在 这 些 闪 电 战 期 间 的 目标 不 是 简单 地 为 了 测试 新 技术 而 进行 实验 和 创新 , 而 是 改进 日 党 
工作 ， 如 找 出 日 常 工作 中 的 变通 方案 。 虽然 实验 也 会 带 来 一 定 的 改进 ,但 是 改善 闪电 战 的 重点 是 21 
解决 日 常 工作 中 遇 到 的 具体 问题 。 
我 们 可 以 安排 为 期 一 周 的 改善 闪电 成 ， 优 先 让 开发 和 运 维 人 员 共同 工作 ， 以 实现 改进 目标 。 
这 些 改善 闪电 战 易于 管理 : 选择 一 周 时 间 ， 让 技术 部 门 的 所 有 人 同时 参与 改进 活动 。 结 束 时 ,每 
个 团队 向 同行 展示 自己 处 理 的 问题 和 构建 的 成 果 。 这 种 做 法 加 强 了 工程 师 在 整个 价值 流 中 解决 问 
题 的 文化 。 此 外 ， 它 还 将 解决 问题 强化 为 日 常 工作 的 一 部 分 ， 并 表明 我 们 重视 偿还 技术 债务 。 


改善 闪电 战 之 所 以 如 此 强大 ， 是 因为 我 们 赋予 了 一 线 工作 人 员 不 断 识 别 和 解决 问题 的 能 力 。 
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@ 从 这 里 开始 ,“ 黑 客 周 ”和 “黑客 马拉松 ”等 术语 与 “改善 内 电 战 ”意义 相同 ， 并 不 是 指 “你 可 以 做 喜欢 的 任何 
项 目 工作 ”。 
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把 复杂 系统 想象 成 一 张 蜂 蛛 网 ， 相 互 交 织 的 蛛 丝 会 不 断 变 弱 、 断 裂 。 如 果 蛛 丝 正确 的 组 合 方式 被 
破坏 , 那么 整 张 蜘蛛 网 都 会 骨 溃 。 即 使 有 再 多 的 指挥 和 控制 管理 ,也 不 能 指导 工作 人 员 逐 一 修复 
所 有 问题 。 相 反 ， 我 们 必须 创造 一 种 组 织 文化 和 规范 ,证 所 有 人 将 发 现 和 修复 断裂 的 “ 蛛 丝 ” 作 
为 日 常 工作 的 一 部 分 。 正 如 Spear 博士 所 言 :“ 难 怪 蜂 蛛 会 不 停 修 复 蜂 蛛网 破损 的 部 分 ， 而 不 会 
等 到 网 变 得 无 法 修复 。” 


Facebook 首席 执行 官 马克 ' 扎 克 伯 格 讲 过 改善 闪电 战 概念 的 一 个 成 功 案例 。 他 在 接受 来 自 
Inc.com 的 Jessica Stillman 采访 时 说 :“ 我 们 每 隔 几 个 月 就 举行 一 次 黑客 马拉松 ， 每 个 人 都 为 自己 
的 新 想法 设计 原型 。 最后， 整个 团队 至 在 一 起 , 检阅 所 有 已 经 完成 的 工作 。 我 们 许多 最 成 功 的 产 
品 都 来 自 于 黑客 马拉松 ,包括 Timeline、 聊 天 、 视 频 、 移 动 开发 框架 和 一 些 最 重要 的 基础 设施 ， 
如 HipHop 编译 器 。” 
































特别 让 人 感 兴 趣 的 就 是 HipHop PHP 编译 器 。2008 年 , Facebook 面临 严重 的 容量 问题 一 一 活 
跃 用 户 超过 1 亿 ， 而 且 仍 在 迅猛 增长 。 这 给 整个 工程 团队 带 来 了 巨大 的 麻烦 。 在 一 次 黑客 日 里 ， 
Facebook 高 级 服务 器 工程 师 赵 海平 开始 尝试 将 PHP 代码 转换 为 可 编译 的 C+ 代码， 希望 能 够 大 
幅度 提升 现 有 基础 架构 的 容量 。 在 接 下 来 的 两 年 中 ， 一 个 小 团队 集结 并 构建 了 这 个 称 为 HipHop 
编译 器 ， 将 Facebook 的 所 有 生产 服务 从 解释 型 的 PHP 程序 文件 转换 为 了 编译 型 的 C++ 二 进 制 文 
件 。HipHop 使 Facebook 的 平台 能 够 处 理 比 原生 PHP 程序 高 6 倍 的 生产 负载 。 


在 接受 《 连 线 》 杂 志 的 Cade Metz 采访 时 ， 参 与 该 项 目的 工程 师 Drew Paroski 说 :“ 在 那 段 
时 间 里 ， 如 果 没 有 HipHop 的 话 ， 我 们 可 能 会 身 陷 水 深 火 热 当 中 。 网 站 本 来 需要 更 多 服务 器 ， 但 
我 们 根本 来 不 及 准备 好 。 还 好 它 成 功 了 ， 在 最 后 关头 化 险 为 夷 。” 


后 来 ，Paroski 以 及 同事 Keith Adams 和 Jason Evans 决定 进一步 提高 HipHop 编译 器 的 性 能 ， 

并 降低 它 对 开发 人 员 生 产 力 的 限制 。 采 用 即时 编译 方式 的 HipHop 虚拟 机 项 目 (HHVM ) 就 此 诞 
生 。 到 2012 年 ，HHVM 在 生产 环境 中 完全 取代 了 HipHop 编译 器 ， 有 近 20 名 工程 师 曾 为 此 项 目 
做 出 了 贡献 。 


通过 定期 举办 改善 内 电 战 和 黑客 周 ， 价 值 流 中 的 所 有 人 都 自豪 地 以 主人 翁 精 神 来 进行 创新 ， 
不 断 地 将 改进 整合 到 系统 中 ， 进 一 步 提 高 了 安全 性 、 可 靠 性 和 学 识 。 











































































































21.2 让 所 有 人 教学 相 长 

不 论 是 通过 传统 的 说 教 方式 (如 上 课 、 培 训 )， 还 是 通过 更 具 实 验 性 或 开放 式 的 方法 ( 例如 
会 议 、 工 作坊 、 指 导 ), 动态 的 学 习 文化 都 不 仅 能 为 每 个 人 创造 学 习 条 件 ， 还 能 创造 教学 的 机 会 。 
我 们 可 以 投入 专门 的 组 织 时 间 来 促进 这 种 教 和 学 。 
全 美 互惠 保险 公司 技术 副 总 裁 Steve Farley 说 :“ 我 们 有 5000 名 专业 技术 人 员 , 称 为 “同伴 ”。 
自 2011 年 以 来 , 我 们 一 直 致 力 于 打造 一 种 学 习 文 化 一 一 其 中 的 一 部 分 是 所 谓 的 “ 周 四 教学 "， 这 
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是 为 同伴 安排 的 每 周一 次 的 学 习 时 间 。 在 两 个 小 时 的 学 习 时 间 里 ,每 个 同伴 都 既 要 自己 学 习 ， 又 
要 教 别人 。 主题 都 是 他 们 想 要 学 习 的 内 容 , 有 些 关 于 技术 , 有 些 关于 新 软件 开发 或 流程 改进 方法 ， 
有 些 甚至 关于 如 何 更 好 地 进行 职业 管理 。 任何 同伴 都 能 做 到 的 最 有 价值 的 事情 ,就 是 指导 其 他 同 
伴 ,或 者 向 其 他 同伴 学 习 。” 


从 本 书 中 可 以 明显 发 现 , 所 有 工程 师 都 越 来 越 需要 某 些 技能 , 而 不 只 是 开发 人 员 如 此 。 例如 ， 
对 于 所 有 运 维和 测试 工程 师 来 说 ， 熟 悉 开发 技术 、 惯 例 和 技能 变 得 越 来 越 重 要 ， 例 如 版 本 控制 、 
自动 化 测试 、 部 署 流水 线 、 配 置 管理 和 自动 化 。 熟 悉 开 发 技术 有 助 于 运 维 工程 师 保 持 相 关 性 ， 
为 越 来 越 多 的 技术 价值 流 采用 了 DevOps 的 原则 和 模式 。 


虽然 人 们 学 习 新 东西 时 可 能 会 觉得 害怕 、 芍 众 或 着 耻 ,， 但 其 实 不 必 如 此 。 毕 竞 , 我 们 都 是 终 
身 学 习 者 ,向 同行 学 习 是 最 好 的 学 习 方式 之 一 。Karthik Gaekwad 是 国家 仪器 DevOps 转型 的 参与 
者 ， 他 说 :“ 对 于 正在 学 习 自 动 化 的 运 维 人 员 来 说 ， 不 要 觉得 晨 惧 一 一 尽管 去 咨询 友好 的 开发 人 
员 ， 他 们 会 乐于 回答 的 。 


开发 和 运 维 团 队 可 以 通过 共同 执行 代码 审查 ,在 日 常 工作 中 进一步 教授 技能 , 从 而 在 做 中 学 ， 
并 且 一 起 解决 一 些小 问题 。 例 如 ,开发 人 员 可 以 向 运 维 人 员 演 示 应 用 程序 如 何 认证 用 户 ， 登 录 应 
用 程序 ， 以 及 进行 各 个 组 件 的 自动 化 测试 ， 从 而 确保 关键 组 件 正 常 工作 ( 例如 ， 应 用 程序 的 核心 
功能 、 数 据 库 事 务 、 消 息 队 列 )。 然后 ,将 这 个 新 的 上 自动 化 测试 集成 到 部 署 流水 线 中 并 定期 运行 ， 
把 测试 结果 发 送 到 监控 和 告警 系统 ， 以 便 在 关键 组 件 出 现 故 障 时 及 早 发 现 。 


Forrester Research 的 Glenn O"Donnell 在 2014 年 DevOps 企业 峰会 的 演讲 中 说 :“ 对 于 所 有 热 
爱 创 新 、 热 爱 变革 的 专业 技术 人 士 来 说 ， 我 们 的 前 方 是 美好 而 充满 活力 的 未 来 。 











































































































21.3 在 DevOps 会 议 中 分 享 经 验 


在 许多 注重 成 本 的 组 织 中 , 工程 师 常 常 不 愿 参加 会 议和 向 同行 学 习 。 为 了 建立 起 学 习 型 组 织 ， 
我 们 应 该 鼓励 工程 师 (来 自 开 发 和 运 维 部 门 ) 参加 会 议 , 并 在 必要 时 自己 创建 和 组 织 内 部 或 外 部 
会 议 。 

在 自发 组 织 的 系列 会 议 中 ，DevOpsDays 目前 仍然 是 最 有 活力 的 一 个 。 在 其 活动 中 ， 已 经 公 
布 和 分 享 了 许多 DevOps 实践 。 它 由 充满 活力 的 从 业者 和 供应 商社 区 支持 ， 一 直 保 持 免 费 或 几乎 
免费 。 


DevOps 企业 峰会 于 2014 年 成 立 ， 旨 在 让 技术 领导 者 分 享 在 大 型 复杂 组 织 中 采用 DevOps 原 
则 和 实践 的 经 验 。 该 计划 的 开展 主要 围绕 DevOps 旅程 中 的 技术 领导 者 以 及 社区 选 定 主题 的 相关 
专家 所 撰写 的 经 验 报告 。 
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* 案例 研究 * 
全 美 互惠 保险 、 第 一 资本 银行 和 塔 吉 特 的 内 部 技术 会 议 (2014) 


部 会 议 。 


全 美 互惠 保险 是 一 家 领先 的 保险 和 人 金融 服务 提供 商 ， 遵 守 严格 的 行业 规定 。 他 们 有 
许多 产品 ， 包 括 汽 车 和 房产 保险 ， 而 且 是 公共 部 门 退 休 计 划 和 宠物 保险 的 顶级 提供 商 。 
截至 2014 年 ， 其 资产 价值 为 1950 亿 美元， 营业 收入 为 240 亿美 元 。 自 2005 年 以 来 ,他们 
一 直 应 用 敏捷 和 精益 原则 来 提升 5000 名 技术 专业 人 员 的 实践 状态 ， 从 而 实现 基层 创新 。 


信息 技术 副 总 裁 Steve Farley 回忆 :“ 那 时 候 ， 开 始 出 现 了 令 人 兴奋 的 技术 会 议 , 例 
如 敏捷 会 议 。2011 年 ， 全 美 互惠 的 技术 领导 一 致 同意 举办 名 为 TechCon 的 技术 会 议 。 
我 们 想 通过 这 一 活动 建立 一 种 更 好 的 自我 教育 方式 , 并 确保 这 一 切 与 全 美 互惠 的 背景 相 
关 ， 而 不 是 把 每 个 人 派出 去 参加 外 部 会 议 。” 


第 一 资本 是 美国 最 大 的 银行 之 一 , 在 2015 年 拥有 超过 2980 亿美 元 的 资产 和 240 亿 
美元 的 收入 。 他 们 于 2015 年 举办 了 第 一 次 内 部 软件 工程 会 议 ， 这 是 其 建立 世界 级 技术 
组 织 目标 的 一 部 分 。 会 议 的 任务 是 促进 共享 和 协作 的 文化 ,并 在 技术 专业 人 员 之 间 建 立 
良好 的 关系 ,使 组 织 学 习 成 为 可 能 。 该 会 议 包 含 13 个 技术 学 习 专场 、$2 个 主题 会 议 ， 
有 超过 1200 名 内 部 员工 参加 。 


首席 技术 官 和 会 议 组 织 者 之 一 的 Tapabrata Pal 博士 说 :“ 我 们 甚至 设立 了 一 个 展厅 ， 
在 其 中 的 28 个 展位 上 ， 第 一 资本 的 内 部 团队 展示 了 正在 实现 的 所 有 惊人 能 力 。 因 为 我 
们 的 关注 点 在 第 一 资本 的 组 织 目 标 上 ， 所 以 故意 没有 邀请 任何 供应 商 参 展 。” 


塔 吉 特 是 美国 的 第 六 大 零售 商 ，2014 年 的 收入 为 720 亿美 元 ， 全 球 共 有 1799 家 零 
售 店 和 34.7 万 名 员工 。 研 发 总 监 Heather Mickman 和 Ross Clanton 自 2014 年 以 来 举办 了 
6 次 内 部 DevOpsDays 活动 ， 在 内 部 技术 社区 里 拥有 975 名 粉丝 。 他 们 采用 的 活动 模式 
参照 了 2013 年 在 荷兰 阿姆斯特丹 ING 举行 的 DevOpsDays。” 


于 2014 年 参加 DevOps 企业 峰会 之 后 ,Mickman 和 Clanton 举行 了 自己 的 内 部 会 议 ， 
邀请 了 很 多 外 部 公司 的 演讲 者 ,以 此 为 高 层 领导 重 现 参 会 的 亲身 体验 ,Clanton 描述 : “我 
们 在 2015 年 得 到 了 领导 层 的 重视 ， 势 头 也 开始 逐渐 好 转 。 在 那 次 活动 后 ， 很 多 人 主动 
来 找 我 们 咨询 如 何 参 与 和 帮忙 。 











中 顺便 一 提 , ING 团队 的 一 些 成 员 参加 了 2013 年 巴黎 的 DevOpsDays 活动 。 之 后 , Ingrid Algra 、Jan-Joost Bouwman 、 
Evelijn Van Leeuwen 和 Kris Buytaert 在 2013 年 组 织 了 第 一 次 ING 内 部 的 DevOpsDays 活动 , 塔 吉 特 的 第 一 个 内 部 























DevOpsDays 活动 正 是 借鉴 其 模式 举行 的 。 
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21.4 传播 实践 的 内 部 顾问 和 教练 


成 立 内 部 的 教练 和 咨询 组 织 是 一 种 在 组 织 内 传播 专业 知识 的 常见 方法 。 它 可 以 有 许多 形式 。 
在 第 一 资本 银行 里 ， 所 有 领域 专家 都 会 指定 一 些 时 自用 于 接受 任何 人 的 咨询 ， 以 及 回答 提出 的 


问题 。 


在 本 书 前 面 ， 我 们 讲述 了 谷歌 的 测试 小 组 Testing Grouplet 如 何 从 2005 年 开始 在 谷歌 内 部 建 
立 起 世界 级 的 自动 化 测试 文化 ,他们 的 故事 还 在 不 断 问 前 发 展 一 一 为 了 全 面 提升 谷歌 内 部 的 自动 
化 测试 实践 ， 他 们 使 用 了 改善 闪电 战 、 内 部 教练 ， 甚 至 内 部 认证 计划 。 


Bland 说 ， 当 时 谷歌 有 一 个 20% 创 新 时 间 政 策 ， 让 开发 人 员 可 以 拿 出 每 周 的 一 天 时 间 花 在 主 
要 责任 范围 之 外 但 与 谷歌 相关 的 项 目 上 。 有 些 志同道合 的 工程 师 自发 组 成 小 组 , 集中 利用 这 20% 
的 时 间 专 注 于 改善 内 电 战 。 


Bharat Mediratta 和 Nick Lesiecki 组 成 了 一 个 测试 小 组 ， 旨 在 于 谷歌 内 部 推广 自动 化 测试 。 虽 
然 他 们 没有 预算 ， 也 没有 正式 的 授权 ， 但 是 正如 Mike Bland 所 说 ,“ 我 们 同样 没有 明确 的 约束 ， 
这 成 了 我 们 的 一 个 优势 ”。 

他 们 使 用 了 好 几 种 推广 机 制 ， 其 中 最 有 名 的 是 测试 周刊 “厕所 测试 ”(TotT )。 每 周 ， 他 们 都 
会 发 布 一 份 新 闻 简 报 ， 放 在 谷歌 全 球 范 围 内 的 几乎 每 个 办 公 室 的 每 个 卫生 间 里 。Bland 说 :“ 这 样 
做 的 目标 是 提高 整个 公司 的 测试 知识 和 熟练 程度 。 我 们 怀疑 在 线 出 版 物 难以 让 人 们 有 同样 的 参与 
程度 。 


Bland 还 说 :“ 影 响 最 大 的 一 期 TotT 标题 为 “测试 认证 : 糟糕 的 名 字 ， 美好 的 结局 '， 因 为 它 
概述 的 两 项 举措 在 提高 自动 化 测试 水 平方 面 功 不 可 没 。” 


测试 认证 (TC ) 提供 了 改进 自动 化 测试 实践 的 路 线 图 。 正 如 Bland 所 描述 的 那样 ,“ 它 旨 在 
发 扬 谷歌 文化 中 优先 关注 度量 指标 的 特点 …… 同 时 克服 无 从 下 手 的 心理 恐惧 ,第 1 级 是 快速 建立 
基准 度量 指标 , 第 2 级 是 设置 配套 策略 并 达到 自动 化 测试 的 覆盖 率 目 标 , 第 3 级 是 努力 实现 长 期 
的 覆盖 率 目标 ”。 


此 外 ， 它 还 为 任何 需要 咨询 或 帮助 的 团队 提供 了 测试 认证 导师 和 “测试 雇佣 兵 ”( 即 全 职 
部 教练 和 顾问 团队 )， 让 他 们 与 团队 一 起 改进 测试 实践 和 代码 质量 。“ 测 试 雇佣 兵 ” 通 过 将 测试 小 
组 的 知识 、 工 具 和 技术 应 用 到 团队 的 代码 上 ， 将 测试 认证 作为 指南 和 目标 来 实现 。2006 ~ 2007 
年 ，Bland 是 测试 小 组 的 领导 者 ; 2007 ~ 2009 年 ， 他 成 为 了 “测试 雇佣 兵 ” 中 的 一 员 。 


Bland 说 :“ 我 们 的 目标 是 让 所 有 团队 都 达到 TC 的 第 3 级, 不 管 他 们 是 否 参加 了 我 们 的 计划 。 
我 们 还 与 内 部 测试 工具 团队 密切 协作 , 在 与 产品 团队 共同 解决 测试 挑战 时 提供 反馈 。 我 们 脚 踏 实 
地 ， 应 用 自己 构建 的 工具 ， 最 终 消 灭 了 “我 没有 时 间 测 试 ”的 借口 。 


他 补充 道 :“TC 的 各 个 层级 发 扬 了 谷歌 指标 驱动 的 文化 ， 因 为 测试 的 三 个 层级 是 人 们 可 以 在 
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绩效 评审 时 讨论 和 仿 光 的。 测试 小 组 最 终 为 “测试 雇佣 兵 ” 取 得 了 经 费 。 这 是 很 重要 的 一 步 ， 
为 它 现 在 得 到 了 管理 层 的 全 面 支持 一 一 不 仅 限于 政令 ， 还 有 真 金 白 银 。” 


另 一 项 重要 的 举措 是 ， 在 公司 范围 内 开展 Fixit 改善 闪电 战 。Bland 将 Fixit 描述 为 “从 谷歌 
所 有 工程 师 中 召集 那些 有 想法 、 有 使 命 感 的 普通 工程 师 ， 在 一 天 内 进行 密集 的 代码 重 构 冲 刺 和 
工具 应 用 ”。 他 在 公司 范围 里 组 织 了 4 次 Fixit， 有 两 次 是 纯 测 的 ， 另 外 两 次 是 工具 相关 的 ， 其 中 
最 后 一 次 有 来 自 13 个 国家 的 20 多 个 办 公 室 的 100 多 名 志愿 者 参与 其 中 。 他 在 2007 ~ 2008 年 也 
领导 了 了 Fixit 小组。 


Bland 描述 ，Fixit 有意 地 在 一 些 关 键 时 间 点 提出 一 些 焦点 任务 来 激发 人 们 的 兴趣 和 能 量 
有 助 于 发 展 最 先进 的 技术 。 每 一 次 卓有成效 的 努力 都 会 帮助 我 们 把 长 期 文化 变革 的 使 命 推 向 
新 的 高 度 。 


本 书展 示 了 谷歌 取得 的 许多 惊人 成 就 ， 从 中 可 以 看 出 测试 文化 的 成 果 。 
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21.5 小结 


本 音 描 述 了 如 何 建立 一 系列 惯例 , 来 帮助 强化 终身 学 习 以 及 重视 在 日 常 工 作 中 改进 日 常 工作 
的 文化 。 具体 实现 方法 是 : 预 留 偿 还 技术 债务 的 时 间 ; 创建 论坛 , 使 大 家 能 够 在 组 织 内 部 和 外 部 
互相 学 习 和 指导 ; 通过 辅导 、 咨 询 ， 或 者 仅仅 设置 一 段 面谈 时 间 ， 让 专家 能 够 为 内 部 团队 提供 
帮助 。 


通过 使 所 有 人 都 在 日 常 工作 中 相互 学 习 ， 我 们 比 在 竞争 中 学 到 的 更 多 ， 从 而 能 够 赢得 市 场 。 
与 此 同时 ， 我 们 也 在 帮助 彼此 激发 出 人 类 的 全 部 潜力 。 
































21.6 ”第 五 部 分 总 结 


在 第 五 部 分 中 , 我 们 探讨 了 在 组 织 中 创造 学 习 和 实验 文化 的 实践 。 当 我 们 在 复杂 系统 中 工作 
时 ,从 事故 中 学 习 , 创建 共享 代码 库 和 共享 知识 是 必 不 可 少 的 , 这 有 助 于 工作 文化 更 公正 ， 系 统 
更 安全 、 更 具 弹 性 。 


在 第 六 部 分 中 ,我 们 将 探讨 如 何 扩展 流动 、 反 馈 、 学 习 和 实验 ,让 它们 同时 帮助 我 们 实现 信 
息 安 全 目标 。 




















第 六 部 分 


集成 信息 安全 、 变 更 管理 和 
合 规 性 的 技术 实践 





在 前 几 章 中 ,我 们 讨论 了 如 何 构建 从 代码 提交 到 发 布 的 快速 工作 流 , 以 及 反 向 的 快速 反馈 流 。 
我 们 还 探索 了 加 强 组 织 学 习 和 放大 微弱 故障 信和 号 的 文化 惯例 ， 有 助 于 创造 更 安全 的 工作 系统 。 


在 第 六 部 分 中 ， 我 们 会 进一步 扩展 这 些 活动 ,不仅 实现 开发 和 运 维 目标 ， 还 要 同时 实现 信 
息 安 全 目标 ， 保 障 提 高 服务 和 数据 的 保密 性 、 完 整 性 和 可 用 性 。 


我 们 不 是 在 开发 流程 结束 时 才 进行 产品 的 安全 性 检查 ， 而 是 要 把 安全 控制 整合 到 开发 和 运 
维 团队 的 日 常 工作 中 ， 让 安全 成 为 所 有 人 日 常 工作 的 一 部 分 。 理 想 情 况 下 ， 这 项 工作 将 以 自动 
化 的 形式 集成 到 部 署 流水 线 里 。 此 外 ， 我 们 还 将 通过 自动 化 控制 来 优化 手动 操作 、 验 收 和 审批 
流程 ， 逐 渐 降 低 对 职责 分 立 和 变更 审批 流程 等 控制 的 依赖 。 


通过 将 这 些 活动 自动 化 ， 可 以 在 需要 时 向 审计 师 、 评 佑 员 或 价值 流 中 的 任何 人 证 明 控 制 措 
施 正在 有 效 运行 。 


最 后 ， 我 们 不 仅 要 提高 安全 性 ， 而 且 还 要 创建 更 易于 审计 、 能 证 明 控 制 有 效 性 的 流程 ， 以 
遵从 监管 义务 和 合同 义务 。 相 关 的 举措 如 下 : 


口 使 安全 成 为 每 个 人 工作 的 一 部 分 ; 

口 将 预防 性 的 控制 代码 集成 到 共享 代码 库 中 ; 

口 将 安全 性 与 部 署 流水 线 集成 ; 

D 将 安全 性 与 监控 集成 ， 从 而 更 好 地 检测 和 恢复 ; 
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口 保护 部 署 流水 线 ; 
口 将 部 署 活动 与 变更 审批 流程 集成 ; 
口 减少 对 职责 分 离 的 依赖 。 

当 我 们 将 安全 工作 整合 到 所 有 人 的 日 常 工作 中 ， 并 使 之 成 为 每 个 人 的 责任 时 ， 组 织 就 会 获 
得 更 好 的 安全 性 。 更 好 的 安全 性 意味 着 我 们 可 以 防护 数据 、 理 智 地 对 符 数 据 。 这 又 意味 着 可 靠 
性 和 业务 持续 性 ， 因 为 可 用 性 更 好 ， 能 更 容易 地 从 故障 中 恢复 。 我 们 能 在 灾难 性 后 果 发 生 之 前 
解决 安全 问题 ， 并 且 增 加 系统 的 可 预测 性 。 最 重要 的 也 许 是 ， 我们 可 以 在 系统 和 数据 的 防护 方 
面 做 得 比 以 往 任何 时 候 都 好 。 





























将 信息 安全 融 欠 每 个 火 的 
日 常 工作 























一 直 以 来 ， 实 施 DevOps 原则 和 模式 的 最 大 阻碍 就 是 “信息 安全 和 合 规 性 不 允许 "。 然 而 ， 在 
技术 价值 流 中 , 要 将 信息 安全 更 好 地 集成 到 每 个 人 日 常 工作 中 去 , DevOps 可 能 是 最 佳 的 一 个 方式 。 


当 信息 安全 工作 由 开发 和 运 维 以 外 的 团队 单独 负责 时 ， 就 会 出 现 更 多 问题 。Gauntlt 安全 工 
具 联 合 创始 人 、 奥 斯 洒 DevOpsDays 及 Lonestar 应 用 安全 会 议 组 织 者 James Wickett 观察 到 ; 























对 DevOps 有 这 样 一 种 解读 : 它 来 自 于 提高 开发 人 员 生 产 力 的 诉求 ， 因 为 随 着 开发 
人 员 数 量 的 增长 ， 处 理 所 有 部 署 工作 的 运 维 人 员 数 量 就 会 不 足 。 对 于 信息 安全 而 言 ， 这 
种 人 员 不 足 的 情况 尤其 严重 一 一 在 典型 的 技术 组 织 中 ,开发 、 运 维和 信息 安全 工程 师 的 
比例 是 100 : 10 : 1。 当 信息 安全 人 员 较 少 ， 相 关 工 作 还 没有 自动 化 、 没 有 融入 开发 和 
运 维 团 队 的 日 常 工作 中 时 , 在 信息 安全 方面 能 做 的 只 有 合 规 性 检查 ,而 这 与 安全 工程 相 
悖 。 不 仅 如 此 ， 这 还 让 每 个 人 都 讨厌 我 们 。 


James Wickett 和 Sonatype 公司 前 首席 技术 官 、 备 受 尊敬 的 信息 安全 研究 员 Josh Corman 撰写 
了 一 系列 将 信息 安全 融入 DevOps 的 实践 和 原则 ， 命 名 为 Rugged DevOps。 第 一 资本 总 监 兼 平台 
工程 技术 研究 员 Tapabrata Pal 博士 及 其 团队 也 提出 了 类 似 的 想法 , 将 信息 安全 工作 集成 到 软件 开 
发 生命 周期 (SDLC ) 的 各 个 阶段 里 ， 并 将 该 流程 称 为 DevOpsSec。Rugged DevOps 的 历史 可 以 
追溯 到 由 Gene Kim、Paul Love 和 George Spafford 联合 撰写 的 Visible Ops Security 一 书 。 


贯穿 本 书 , 我 们 探讨 了 如 何在 技术 价值 流 中 全 面 整 合 QA 和 运 维 目标 。 本 章 将 介绍 如 何 类 似 
地 将 信息 安全 目标 整合 到 日 常 工作 中 , 从 而 在 提高 开发 和 运 维 人 员 效 率 的 同时 , 增加 系统 安全 程 
度 ， 提 高 信息 安全 性 。 

















22.1 将 安全 集成 到 开发 迭代 的 演示 中 
我 们 的 一 个 目标 是 让 特性 团队 尽早 与 信息 安全 团队 协作 , 而 不 是 等 到 项 目 结束 阶段 才 开 展 相 
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关 工 作 。 这 样 做 的 一 种 方法 是 : 在 每 次 开发 间隔 的 最 后 ,邀请 信息 安全 人 员 参 加 产品 演示 , 使 他 
们 能 够 在 组 织 目标 背景 下 更 好 地 理解 开发 团队 的 目标 , 观察 开发 团队 的 实施 和 构建 过 程 , 并 在 项 
目的 最 早期 阶段 就 提出 指导 和 反馈 ， 从 而 为 问题 修复 留 出 更 多 的 时 间 和 自由 度 。 


GE 资本 的 前 首席 架构 师 Justin Arbuckle 指出 :“ 当 涉及 信息 安全 和 合 规 性 时 ， 我们 发 现在 项 
目 结束 时 解决 项 目 阻 塞 比 开始 阶段 更 加 昂贵 ， 其 中 信息 安全 阻塞 的 成 本 最 高 。 在 此 过 程 中 ,“ 用 
演示 证 明 合 规 性 ”成 为 了 我 们 尽早 消除 所 有 复杂 性 的 一 个 惯例 。 


他 接着 说 :“ 通 过 让 信息 安全 人 员 参 与 到 所 有 新 功能 创建 的 过 程 中 ， 能 够 显著 地 减少 静态 核 
对 表 的 使 用 ， 也 会 在 整个 软件 开发 过 程 中 更 加 依赖 信息 安全 人 员 的 专业 知识 。” 


这 有 助 于 实现 组 织 的 目标 。GE 资本 美洲 公司 企业 架构 ( EA ) 前 首席 信息 官 Snehal Antani 
曾 说 ， 他 们 的 三 大 关键 业务 衡量 标准 是 “开发 速度 ( 即 向 市 场 提供 功能 的 速度 )、 客 户 交 互 的 故 
障 ( 即 服务 中 断 、 报 错 ) 和 合 规 响应 时 间 ( 即 从 审计 提出 请 求 到 提供 所 有 必需 的 定量 和 定性 信 
息 的 时 间 》。 


当 信息 安全 人 员 变 成 团队 的 一 部 分 时 , 即使 参与 方式 只 是 收 到 通知 和 观察 流程 , 他 们 也 会 获 
得 所 需要 的 业务 环境 信息 ,用 于 做 出 更 好 的 安全 风险 决策 。 此 外 , 信息 安全 人 员 还 能 够 帮助 特性 
团队 理解 需要 什么 才能 达到 安全 和 合 规 性 目标 。 








































































































22.2 将 安全 集成 到 缺陷 跟踪 和 事后 分 析 会 议 中 


如 果 可 能 , 我 们 希望 使 用 开发 和 运 维 团 队 的 问题 跟踪 系统 来 管理 所 有 已 知 的 安全 问题 , 以 确 
保安 全 工作 的 可 视 性 , 以 及 能 够 将 它 与 其 他 工作 放 到 一 起 来 安排 优先 级 。 这 与 信息 安全 管理 的 传 
统 工作 方式 完全 不 同 。 以 前 , 所 有 的 安全 漏洞 都 存储 在 只 有 信息 安全 人 员 才 能 够 访问 的 GRC ( 治 
理 、 风 险 和 合 规 性 ) 工具 中 ; 而 现在 , 我 们 将 把 所 有 要 做 的 工作 都 放 在 开发 和 运 维 使 用 的 系统 中 。 


在 2012 年 的 奥斯汀 DevOpsDays 中 , 负责 Etsy 信息 安全 多 年 的 Nick Galbreath 在 演讲 中 介绍 
了 他 们 处 理 安全 问题 的 方式 :“ 我 们 将 所 有 的 安全 问题 都 纳入 到 了 JIRA 系统 里 。 这 是 一 个 所 有 工 
程 师 日 常 使 用 的 系统 ,将 问题 标记 为 Pl 和 P2, 分 别 表示 必须 立即 修复 或 在 周末 前 修复 ， 即 使 只 
是 一 个 内 部 应 用 程序 的 问题 也 要 如 此 人 处理 。” 


他 还 说 :“ 每 当 出 现 安全 问题 的 时 候 ， 我 们 都 会 召开 事后 分 析 会 议 ， 因 为 它 可 以 更 好 地 教育 
工程 师 如 何 防止 问题 复发 ， 也 是 将 安全 知识 传递 给 工程 团队 的 绝 佳 机 制 。 






















































































22.3 将 预防 性 安全 控制 集成 到 共享 源 代 码 库 及 共享 服务 中 


在 第 20 章 中 ， 我们 创建 了 一 个 共享 的 源 代码 库 ， 方 便 任何 人 轻松 地 找到 和 重用 组 织 的 集体 
不 仅仅 是 代码 ,还 有 工具 链 、 部 署 流水 线 、 标 准 等 。 这 让 每 个 人 都 可 以 受益 于 组 织 中 所 














知识 
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有 人 累积 起 来 的 集体 经 验 。 


现在 , 我 们 要 把 任何 有 助 于 确保 应 用 程序 和 环境 安全 性 的 机 制 和 工具 都 添加 到 共享 源 代 码 库 
中 。 我们 将 添加 用 来 满足 特定 信息 安全 目标 的 受 安全 保护 的 程序 库 , 例如 身份 验证 和 加 密 库 及 服 
务 。 由 于 DevOps 价值 流 中 的 所 有 人 都 使 用 版 本 控制 系统 来 管理 构建 和 支持 的 内 容 ， 把 信息 安全 
工件 放 在 那里 就 能 更 容易 地 影响 到 开发 和 运 维 的 日 常 工作 ， 因 为 我 们 创建 的 任何 内 容 都 是 可 访 
间 、 可 搜索 和 可 重用 的 。 版 本 控制 系统 还 可 以 作为 全 方位 沟通 机 制 , 保证 所 有 人 都 知道 发 生 了 什 
么 变更 。 


如 果 有 一 个 集中 的 共享 服务 组 织 ,也 可 以 与 之 协作 ,创建 和 运行 与 安全 相关 的 共享 平台 服务 ， 
例如 认证 、 授 权 、 日 志 记录 ， 以 及 开发 和 运 维 所 需要 的 其 他 安全 和 审计 服务 。 当 工程 师 开 发 的 一 
些 应 用 模块 使 用 了 这 些 预 定义 库 或 服务 时 , 他 们 就 不 需要 再 安排 单独 的 安全 设计 评审 了 ,而 是 会 
使 用 我 们 所 创建 的 关于 配置 加 固 、 数 据 库 安 全 设置 、 密 钥 长 度 等 的 安全 指导 原则 。 


为 使 所 提供 的 服务 和 程序 库 尽 可 能 得 到 正确 使 用 ,我 们 可 以 向 开发 和 运 维 团队 提供 安全 培训 ， 
他 们 评审 项 目 产品 ， 以 确保 安全 目标 的 正确 实施 ， 特 别 是 在 团队 第 一 次 使 用 这 些 工 具 的 时 候 。 


我 们 的 终极 目标 是 为 所 有 现代 应 用 程序 或 环境 提供 所 需 的 安全 类 库 或 服务 , 例如 启用 用 户 身 
份 验证 、 授 权 、 密 码 管理 、 数 据 加 密 等 。 此 外 ,也 可 以 为 开发 和 运 维 团队 应 用 程序 栈 中 用 到 的 组 
件 提 供 安 全 方面 的 有 效 配置 ， 例 如 用 于 日 志 记 录 、 身 份 验 证 和 加 密 。 还 可 能 包括 以 下 相关 内 容 : 


口 代码 库 及 其 推荐 的 配置 [ 例如，2FA ( 双 因 素 认 证 库 )、bcrypt 密码 散 列 、 日 志 记录 ]; 

口 使 用 Vault、sneaker、Keywhiz、credstash、Trousseau、Red October 等 工具 进行 秘 钥 、 密 
码 管理 ( 例如 连接 设置 ， 加 密 密 钥 ); 

口 操作 系统 软件 包 和 构建 ( 例如， 用 于 时 间 同 步 的 NTP, 正确 配置 的 安全 版 本 的 OpenSSL ， 
用 于 文件 完整 性 监视 的 OSSEC 或 Tripwire， 用 于 确保 将 关键 安全 性 日 志 都 记录 到 集中 式 
ELK 系统 里 的 syslog 日 志 配 置 )。 


通过 将 上 述 内 容 都 保存 在 共享 的 源 代 码 库 中 ,任何 工程 师 都 能 够 在 应 用 程序 和 环境 中 轻松 、 
正确 地 使 用 日 志 记 录 和 加 密 标 准 ， 而 无 需 额外 的 工作 。 


我 们 还 应 该 与 运 维 团 队 合作 , 创建 基础 的 配置 手册 或 构建 操作 系统 、 数 据 库 和 其 他 基础 设施 
(例如 NGINX、Apache、Tomcat ) 的 镜像 ， 确 保 它们 都 处 在 已 知 、 安 全 和 低 风险 的 状态 。 共 享 
源 代码 库 不 仅 是 获得 最 新 版 本 的 地 方 , 而 且 也 是 与 其 他 工程 师 协 作 的 地 方 , 是 对 安全 敏感 模块 变 
更 进行 监视 和 报警 的 地 方 。 
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22.4 ”将 安全 集成 到 部 署 流水 线 中 
以 前 , 为 了 对 应 用 程序 进行 安全 加 固 , 我 们 会 在 开发 工作 完成 之 后 开始 进行 安全 审查 。 通常 ， 
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开发 和 运 维 可 能 会 收 到 长 达 数 百 页 的 PDF 文档 ， 这 些 审查 结果 描述 了 各 种 安全 漏洞 。 由 于 在 整 
个 软件 生命 周期 中 发 现 得 太 晚 ,已 经 错失 了 轻易 修复 的 机 会 , 或 迫 于 项 目 期 限 的 压力 ， 这些 问 题 
最 终 很 难得 到 修复 。 

现在 ， 我 们 将 在 这 一 步 尽 可 能 地 自动 化 信息 安全 测试 。 这 样 ，( 在 理想 情况 下 ) 每 当 开发 或 
运 维 人 员 代码 提交 时 , 甚至 在 软件 项 目的 最 早期 阶段 , 就 可 以 在 部 署 流水 线 中 与 其 他 所 有 测试 一 
起 运行 安全 测试 。 

我 们 的 目标 是 为 开发 和 运 维 人 员 提 供 快速 反馈 , 以 便 在 他 们 提交 有 安全 隐患 的 变更 时 ,及 时 
发 出 通知 。 这 样 就 可 以 快速 地 检测 和 修复 安全 问题 ， 并 将 这 部 分 工作 融和 日常 工 作 中 , 在 学 习 的 
同时 杜绝 问题 复发 。 


理想 情况 下 ， 在 部 署 流 水 线 中 ， 这 些 自动 化 安全 测试 将 与 其 他 静态 代码 分 析 工 具 同 步 运行 。 


诸如 Gauntlt 这 样 的 工具 可 以 集成 到 部 署 流水 线 中 ， 针 对 应 用 程序 、 应 用 程序 依赖 、 环 境 等 
进行 自动 化 安全 测试 。 值 得 注意 的 是 ，Gauntlt 所 有 的 安全 测试 都 使 用 Gherkin 语法 格式 的 测试 脚 
本 , 而 后 者 被 开发 人 员 广 泛 地 用 在 单元 测试 和 功能 测试 中 。 这样 就 可 以 用 已 经 熟知 的 框架 进行 安 
全 测试 了 ( 见 图 22-1 )， 还 能 够 在 每 次 提交 代码 变更 的 时 候 ， 轻 松 地 在 部 署 流 水 线 中 执行 安全 测 
试 ， 例 如 静态 代码 分 析 、 依 赖 组 件 的 漏洞 检查 或 动态 测试 。 

Jenkins 


最 近 成 功 时 间 最 近 失 败 时 间 


























依赖 组 件 的 已 知 漏洞 检查 NA 了 


下 载 和 单元 测试 














OWASP ZAP 扫 描 4 分 钟 43 秒 








5 分 钟 46 秒 

















4.7 秒 





图 22-1 ”Jenkins 运行 自动 化 安全 测试 
(来 源 : James Wicket 和 Gareth Rushgrove 在 Velocity 2014 会 议 上 的 演讲 “没有 战斗 的 战斗 测试 代码 ”， 发 布 于 Speakerdeck.com， 
2014 年 6 月 24 日 ，https://speakerdeck.com/garethr/battle-tested-code-without-the-battle ) 
我 们 通过 以 上 方式 为 价值 流 中 的 所 有 人 尽快 提供 安全 性 相关 的 反馈 , 使 开发 和 运 维 工程 师 能 
够 快速 定位 并 解决 相关 问题 。 


22.5 ”保证 应 用 程序 的 安全 性 


通常 ,开发 阶段 的 测试 关注 功能 的 正确 性 ,着 眼 点 是 正确 的 逻辑 流程 。 这 种 类 型 的 测试 通 带 
称 为 愉快 路 径 (happypath )， 它 验证 的 是 用 户 的 正常 操作 流程 (有 时 候 存在 几 个 可 选 的 路 径 ) 一 一 
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一 切 都 按 预 期 执行 ， 没 有 例外 或 出 错 状况 。 


男 一 方面 ， QA 人 员 、 信 息 安 全 人 员 和 欺诈 者 其 实 经 常 关注 不 愉快 路 径 (sad path )， 它 在 事 
情 出 错时 发 生 ， 尤 其 与 安全 相关 的 错误 状况 有 关 。( 这 类 安全 特定 状况 常 被 戏称 为 坏 路 径 。 ) 


例如 , 假设 有 一 个 电子 商务 网 站 ,客户 下 单 时 要 在 表单 里 输入 信用 卡号 码 。 我们 想 要 定义 所 
有 的 不 愉快 路 径 和 坏 路 径 ， 以 确保 拒绝 无 效 的 信用 卡 ， 从 而 防止 欺诈 和 安全 漏洞 , 如 SQL 注入、 
缓冲 区 溢出 和 其 他 不 良 后 果 。 


理想 情况 下 , 我 们 将 其 作为 自动 化 单元 或 功能 测试 的 一 部 分 生成 ， 而 不 是 手动 执行 ， 以 便 在 
部 署 流 水 线 中 持续 运行 这 些 测 试 。 我 们 期 望 包含 以 下 内 容 作 为 测试 的 一 部 分 。 


口 静态 分 析 : 这 是 我 们 在 非 运行 时 环境 中 执行 的 测试 ， 期 望 在 部 署 流水 线 中 进行 。 通 常 ， 
静态 分 析 工 具 将 检查 程序 代码 所 有 可 能 的 运行 时 行为 ， 并 查找 编码 缺陷 、 后 门 和 潜在 的 
恶意 代码 (有 时 称 为 “从 内 向 外 测试 ” )。 此 类 工具 包括 Brakeman 、Code Climate 和 搜索 
禁止 代码 功能 ( 例如 ，exec0 )。 

动态 分 析 : 与 静态 测试 相反 ， 动 态 分 析 由 一 系列 在 程序 运行 时 执行 的 测试 组 成 。 动 态 测 
试 监视 诸如 系统 内 存 、 功 能 行为 、 响 应 时 间 和 系统 整体 性 能 等 项 目 。 这 种 方法 (有 时 称 
为 “从 外 向 内 测试 ”) 就 好 像 有 恶意 的 第 三 方 与 应 用 程序 交互 。 此 类 工具 包括 Arachni 和 
OWASP ZAP (Zed 攻击 代理 ) “有 些 渗透 测试 也 可 以 自动 执行 ， 而 且 应 该 作为 Nmap 和 
Metasploit 等 动态 分 析 工 具 的 一 部 分 使 用 。 理 想 情 况 下 ， 自 动 化 动态 测试 应 该 在 部 署 流水 
线 的 自动 化 功能 测试 阶段 执行 ， 其 至 针对 生产 环境 中 的 服务 执行 。 为 了 确保 安全 性 措施 
的 有 效 性 ， 可 以 把 OWASP ZAP 等 工具 配置 为 攻击 服务 的 浏览 嚣 代理， 并 在 测试 工具 中 
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口 依赖 组 件 扫描 : 这 是 男 一 种 静态 测试 ， 通 常 于 构建 时 在 部 署 流水 线 里 执行 。 它 会 清点 二 


进 制 文件 和 可 执行 文件 依赖 的 所 有 包 和 库 ， 并 确保 这 些 依赖 组 件 ( 我 们 通常 无 法 控制 ) 
没有 漏洞 或 恶意 二 进 制 文件 。Ruby 的 Gemnasium 和 bundler 审核 ，Java 的 Maven 以 及 
OWASP 依赖 性 检查 就 是 其 中 的 几 个 例子 。 

口 源 代 码 完 整 性 和 代码 签名 : 所 有 开发 人 员 都 应 该 有 自己 的 PGP 密 钥 ， 可 以 在 诸如 
keybase.io 之 类 的 系统 中 创建 和 管理 。 向 版 本 控制 系统 中 提交 的 一 切 都 应 该 签名 一 一 使 用 
开放 源 代码 工具 gpg 和 git 直 接 配置 。 此 外 ，CI 创建 的 所 有 包 都 应 该 签名 ， 并 且 将 其 散 列 
值 记录 在 集中 式 日 志 记 录 服 务 中 ， 为 审计 所 用 。 


此 外 ,我 们 应 该 定义 设计 模式 , 帮助 开发 人 员 编 写 防 止 滥用 的 代码 , 例如 为 服务 设置 速率 限 
制 ， 将 按 下 的 提交 按钮 变 为 无 法 点 击 的 状态 。OWASP 发 布 了 大 量 有 用 的 指导 ， 如 Cheat Sheet 系 
列 ， 包 括 如 下 内 容 : 



























































(D OWASP (开放 Web 应 用 程序 安全 项 目 ) 是 一 个 致力 于 提高 软件 安全 性 的 非 营利 组 织 。 
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口 如 何 存储 密码 ; 

口 如 何 处 理 忘 记 的 密码 ; 

口 如 何 处 理 日 志 记 录 ; 

口 如 何 防 止 跨 站 点 脚本 (XSS ) 漏洞 。 

















* 案例 研究 * 
Twitter 的 静态 安全 测试 (2009) 


John Allspaw 和 Paul Hammond 在 2009 年 的 “每 日 10 次 部 署 : Dev 和 Ops 在 Flickr 
的 协作 ”演讲 是 开发 和 运 维 社区 的 著名 催化 剂 。 在 信息 安全 社区 中 具有 相同 影响 力 的， 
可 能 是 Justin Collins、Alex Smolen 和 Neil Matatall 在 2012 年 的 AppSecUSA 会 议 上 所 做 
的 关于 Twitter 公司 信息 安全 转型 工作 的 演讲 。 


由 于 增长 迅猛 ，Twitter 面临 很 多 挑战 。 多 年 来 ， 当 Twitter 没有 足够 的 处 理 能 力 来 
响应 用 户 请 求 的 时 候 ， 就 会 显示 著名 的 “失败 的 鲸鱼 ”错误 页 面 ,就 是 一 张 由 八 只 鸟 把 
一 条 鲸鱼 其 在 空中 的 图 片 。Twitter 用 户 的 增长 规模 惊人 ， 仅 在 2009 年 1~3 月 ，Twitter 
的 活跃 用 户 就 从 250 万 增加 到 了 1000 万 。 


在 此 期 间 ，Twitter 也 有 一 些 安 全 问题 。2009 年 初出 现 了 两 个 严重 的 安全 漏洞 。 先 
是 1 月 份 ， 当 时 美国 总 统 的 Twitter 账户 @BarackObama 被 黑 。 然 后 是 4 月 份 ，Twitter 
的 管理 账户 遭 到 暴力 字典 攻击 。 这 些 事件 导致 联邦 贸易 委员 会 认为 Twitter 并 不 能 保证 
用 户 账 户 的 安全 性 ， 并 发 出 了 FTC 同意 令 。 


同意 令 要 求 Twitter 在 60 天 内 遵从 如 下 一 系列 规定 流程 ， 并 且 在 接 下 来 的 20 年 内 


口 指定 一 名 或 者 多 名 员工 负责 Twitter 的 信息 安全 计划 ; 

口 正确 地 识别 来 自 内 部 和 外 部 、 EE 导致 入 侵 事 件 的 可 预见 性 风险 ， 并 制定 和 实 
施 消 除 这 些 风险 的 工作 计划 ; 了 

口 不 仅 从 外 部 也 从 内 部 保护 用 户 的 隐私 信息 ， 列 出 可 行 的 大 纲 来 验证 和 测试 这 些 
实现 措施 的 安全 性 和 正确 性 。 





有 一 个 工程 师 小 组 受命 解决 这 个 问题 。 他 们 必须 将 安全 性 集成 到 开发 和 运 维 的 日 常 
工作 中 ， 并 封 堵 那些 曾经 默许 的 违规 安全 漏洞 。 


在 上 述 演讲 中 ，Collins、Smolen 和 Matatall 发 现 了 几 个 有 待 解决 的 问题 。 




















中 管理 这 些 风 险 的 策略 包括 提供 员工 培训 和 管控 ,重新 思考 信息 系统 的 设计 ， 如 网 络 和 软件 ， 以 及 制定 旨 在 预防 、 


检测 和 应 对 攻击 的 流程 。 


[all 
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口 防止 安全 错误 的 重复 发 生 : 他 们 发 现 自己 总 在 修复 相同 的 缺陷 和 漏洞 。 需 要 改 

进 工 作 系统 和 自动 化 工具 ， 以 防止 这 些 问题 复发 。 

口 将 安全 目标 集成 到 开发 人 员 的 工具 中 : 他 们 早期 发 现 的 漏洞 主要 来 自 代 码 问 题 。 
他 们 并 不 会 运行 能 生成 长 篇 PDF 报告 的 工具 ， 再 通过 电子 邮件 发 送 给 开发 或 运 
维 人 员 。 相 反 ， 他 们 要 做 的 是 给 引起 该 漏洞 的 开发 人 员 提 供 修复 问题 所 需要 的 准 
确信 息 。 

口 获得 开发 人 员 的 信任 : 需要 赢得 和 保有 开发 人 员 的 信任 。 这 意味 着 需要 知道 什么 

时 候 给 开发 人 员 发 送 误 报 ， 让 他 们 解决 引发 该 误 报 的 错误 ,避免 浪费 开发 时 间 。 

口 通过 自动 化 保持 信息 安全 的 快速 流 : 即使 代码 漏洞 扫描 已 经 自动 化 ， 可 是 信息 
安全 人 员 仍然 必 须 进 行 大 量 手 动工 作 以 及 等 待 。 他 们 不 得 不 等 待 扫描 完成 ， 取 
回 并 解释 大 量 报告 ， 然 后 找 出 负责 修复 的 人 。 在 代码 有 改动 时 ， 还 要 重复 以 上 
过 程 。 通 过 自动 化 这 个 手动 流程 ， 执 行 这 个 任务 简单 到 只 需要 “点 几 次 按钮 ” 
就 能 完成 ， 迫 使 他 们 运用 更 多 创造 力 和 判断 力 。 

口 尽 可 能 使 所 有 安全 信息 自助 化 : 他 们 相信 大 多 数 人 想 要 做 正确 的 事情 ， 因 此 有 

必要 为 其 提供 解决 问题 所 需 的 所 有 相关 信息 。 

口 采取 全 盘 方 式 来 实现 信息 安全 目标 他 们 的 目标 是 从 所 有 角度 进行 分 析 ， 包 括 

源 代码 、 生 产 环境 ， 甚 至 客户 的 看 法 。 











信息 安全 团队 的 第 一 个 重大 突破 发 生 在 公司 的 黑客 周 ， 将 静态 代码 分 析 集 成 到 了 
Twitter 构建 过 程 中 ,该 团队 使 用 的 是 扫描 Ruby on Rails 应 用 程序 漏洞 的 工具 Brakeman。 
目标 是 将 安全 扫描 集成 到 开发 过 程 的 最 早期 阶段 ， 而 不 只 是 将 代码 提交 到 源 代码 库 中 。 


将 安全 测试 集成 到 开发 过 程 中 产生 的 结果 令 人 震惊 。 多 年 来 , 通过 在 开发 人 员 编 写 
不 安全 的 代码 时 提供 快速 反馈 ， 以 及 展示 如 何 解决 这 些 漏洞 ，Brakeman 已 经 将 漏洞 发 
现 率 降低 了 60%， 如 图 22-2 所 示 。( 峰值 通常 与 使 用 了 新 版 本 的 Brakeman 有 关 。) 


300 4 





11 月 11 日 1 有 12 3 月 12 日 5 月 12 7 月 12 日 9 月 12 日 


图 22-2 Brakeman 检测 到 的 安全 漏洞 数 
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这 个 案例 说 明了 将 安全 集成 到 DevOps 日 常 工作 和 工具 中 的 必要 性 ， 以 及 这 种 工作 
模式 的 有 效 性 。 这样 可 以 减轻 安全 风险 ,降低 系统 中 出 现 漏洞 的 概率 ， 并 有 助 于 指导 开 
发 人 员 编 写 更 安全 的 代码 。 


22.6 ”确保 软件 供应 链 的 安全 


Josh Corman 指出 , 作为 开发 人 员 “我 们 不 再 编写 自 定义 软件 , 而 是 组 装 所 需要 的 开源 组 件 ， 
这 已 经 成 为 我 们 非常 依赖 的 软件 供应 链 了 ”。 换 名 话说 ， 当 我 们 在 软件 中 使 用 各 种 ( 商业 或 开源 
的 ) 组 件 或 库 时 ， 不 仅 继承 了 它们 的 功能 ， 而 且 包括 任何 相关 的 安全 漏洞 。 


在 选择 软件 时 , 我 们 检测 软件 项 目 是 否 依赖 有 已 知 漏洞 的 组 件 或 库 , 并 帮助 开发 人 员 慎 重地 
选择 要 使 用 的 组 件 一 一 选择 那些 曾经 得 到 验证 、 软 件 漏洞 可 以 快速 修复 的 组 件 ( 例如 开源 项 目 )。 
我 们 还 要 找 出 在 生产 环境 中 所 用 库 的 多 个 版 本 ,特别 是 存在 已 知 漏洞 的 旧版 本 。 


对 持 卡 人 数据 泄露 的 检查 显示 了 , 我 们 选择 的 开源 组 件 对 于 安全 性 而 言 有 多 人 么 重要 。 自 2008 
年 以 来 ， 年 度 Verizon PCI 数据 泄露 调查 报告 (DBIR ) 是 关于 因 持 卡 人 数据 丢失 或 被 盗 而 造成 数 
据 泄露 的 最 权威 意见 。 在 2014 年 的 报告 中 ， 他 们 研究 了 85 000 个 数据 泄露 事件 ， 更 好 地 理解 了 
攻击 的 来 源 ， 持 卡 人 数据 如 何 被 盗 ， 以 及 导致 数据 泄露 的 因素 。 


DBIR 发 现在 2014 年 所 研究 的 持 卡 人 数据 泄露 事件 中 ,有 10 个 漏洞 ( 即 CVE ) 导 致 了 近 97% 
的 事件 发 生 。 在 这 10 个 漏洞 中 ， 有 8 个 已 经 存在 10 多 年 了 。 


“2015 年 Sonatype 软件 供应 链 报告 ”进一步 分 析 了 Nexus Central Repository 存储 库 里 的 漏洞 
数据 。2015 年 ， 该 存储 库 为 超过 605 000 个 开源 项 目 提 供 了 构建 工件 ， 响 应 了 来 自 106 000 个 组 
织 的 超过 170 亿 个 工件 和 依赖 项 的 下 载 请 求 ， 主 要 集中 在 Java 平台 。 


报告 里 有 如 下 惊人 的 发 现 : 


口 一 个 典型 的 组 织 依赖 于 7601 个 构建 工件 ( 即 软 件 供应 商 或 组 件 ) 并 使 用 18 614 个 不 同 版 
本 即 软 件 构件 ); 

口 在 这 些 用 到 的 组 件 中 ，7.5% 存 在 已 知 漏洞 ， 其 中 超过 66% 的 漏洞 已 经 存在 两 年 以 上 ， 并 
且 尚 未 修复 。 


最 后 一 个 统计 数据 证 实 了 Dan Geer 博士 和 Josh Corman 博士 的 另 一 项 信息 安全 人 研究。 该 研究 
显示 , 在 美国 国家 漏洞 数据 库 里 已 注册 的 有 已 知 漏洞 的 开源 项 目 中 , 只 有 41% 得 到 了 修复 , 而 且 
平均 390 天 才 发 布 一 个 补丁 。 对 于 那些 标记 为 最 高 严重 性 ( 即 评分 为 CVSS 级 别 10 ) 的 漏洞 , 修 
复 需 要 224 天 。? 












































































































































GD 有 助 于 确保 软件 依赖 完整 性 的 工具 包括 OWASP 依赖 性 检查 和 Sonatype Nexus Lifecycle。 
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22.7 ”确保 环境 的 安全 


在 这 个 步骤 里 ， 任 何 有 助 于 加 固 环 境 、 降 低 风险 的 工作 都 应 该 做 。 虽 然 我们 可 能 已 经 建立 
了 已 知 的 良好 配置 ， 但 还 是 必须 通过 监控 的 手段 确保 所 有 生产 服务 器 都 与 这 些 已 知 的 良好 状态 
匹配 。 


我 们 利用 自动 化 测试 的 方式 来 保证 已 正确 应 用 了 所 有 必要 的 设置 , 包括 安全 加 固 配置 、 数 据 
库 安 全 设置 、 密 钥 长 度 等 。 此 外 ， 我 们 将 使 用 测试 来 扫描 环境 中 的 已 知 漏洞 。” 


另 一 类 安全 性 验证 方法 是 理解 实际 环境 ( 即 “ 实 际 的 状态 ”)。 此 类 工具 包括 用 来 确保 只 开放 
预期 端口 的 Nmap ， 以 及 用 来 确保 特定 已 知 漏洞 已 经 充分 加 固 的 Metasploit， 例 如 使 用 SQL 注入 
攻击 进行 扫描 。 应 该 将 这 些 工 具 的 输出 放 入 工件 库 中 ,并 与 以 前 的 版 本 进行 比较 ， 从 而 作为 功能 
测试 过 程 的 一 部 分 。 这 样 ， 只 要 发 生 任何 不 良 变化 ， 就 可 以 立即 检测 到 。 
















































































* 案例 研究 * 
18F 用 compliance masonry 为 美国 联邦 政府 实现 合 规 自动 化 


美国 联邦 政府 机 构 预 计 , 2016 年 将 在 信息 技术 方面 花费 近 800 亿美 元 , 用 于 支持 所 
有 政令 的 实施 。 不 论 哪个 政府 机 构想 将 任何 系统 从 “开发 完成 ”的 状态 上 线 为 “生产 
环境 运行 ”状态 ， 都 需要 从 审批 机 构 (DAA ) 获得 运营 授权 (ATO )。 美 国联 邦 政府 的 
合 规 性 法 律 和 政策 包含 数 十 个 文档 ， 共 有 4000 多 页 ， 上 面 充斥 着 FISMA 、FedRAMP 
和 FITARA 等 缩写 。 即 使 是 保密 性 、 完 整 性 和 可 用 性 要 求 很 低 的 系统 ， 也 必须 实施 、 记 录 
和 测试 100 多 条 控制 项 。 想 要 在 “开发 完成 ”状态 得 到 ATO 授权 ， 通 常 还 需要 等 8~14 
个 月 。 


美国 联邦 政府 总 务 管理 局 的 18F 小 组 采取 多 管 齐 下 的 方法 来 解决 这 个 问题 。Mike 
Bland 解释 说 :“ 在 总 务 管理 局 成 立 18F 团队 的 目标 是 ， 利 用 Healthcare.gov 恢复 带 来 的 
良好 势头 来 改革 政府 构建 和 购买 软件 的 方式 。” 


18F 的 一 项 努力 是 建设 基于 开源 组 件 的 平台 即 服务 (PaaS )， 名 为 Cloud.gov。 
Cloud.gov 目前 运行 在 AWS GovCloud 上 。 该 平台 不 仅 能 处 理 很 多 交付 团队 可 能 要 处 理 
的 运 维 问题 , 例如 日 志 记 录 、 监 控 、 警 报 和 服务 生命 周期 管理 ,而且 能 解决 大 量 的 合 规 
性 问题 。 通过 在 这 个 平台 上 运行 系统 ,大 多 数 必须 实现 的 政府 控制 都 可 以 在 基础 设施 和 
平台 级 别 上 做 好 。 然 后 ,就 只 需要 在 应 用 层 范 围 里 进行 相关 控制 的 记录 和 测试 即 可 ， 从 
而 显著 减少 合 规 工作 的 负担 和 获得 ATO 授权 所 需 的 时 间 。 











GD 有 助 于 进行 安全 矫正 测试 ( 即 “ 该 有 的 状态 ”) 的 工具 包括 自动 配置 管理 系统 ( 例如 , Puppet、Chef、Ansible 、Salt ) 
以 及 ServerSpec 和 Netflix Simian Army 等 工具 ( 例如,“ 一 致 性 猴子 ”“ 安 全 猴子 ”等 )。 
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AWS GovCloud 已 经 被 批准 用 于 所 有 类 型 的 美国 联邦 政府 系统 ， 包 括 保密 性 、 完 整 
性 和 可 用 性 需求 为 高 级 别 的 系统 。 本 书 上 市 时 ， 预 计 Cloud.gov 将 被 批准 用 于 所 有 中 等 
级 别 需 求 的 系统 。® 


此 外 , Cloud.gov 团队 正在 构建 一 个 自动 创建 系统 安全 计划 (SSP ) 的 框架 , 它 是 “对 
系统 架构 、 实 施 控制 和 总 体 安全 状态 的 全 面 描述 …… 通 常 非常 复杂 , 文档 长 达 几 百 页 ”。 
他 们 开发 了 一 个 名 为 compliance masonry 的 原型 工具 ,以 便 将 SSP 数据 存储 为 机 器 可 读 
的 YAML 文件 ， 然 后 自动 转化 为 GitBook 和 PDF 格式 。 


18F 致力 于 工作 的 开放 性 ， 并 将 工作 成 果 开 源 给 公众 。 你 可 以 在 18F 的 GitHub 代 
码 库 中 找到 compliance masonry 和 Cloud.gov 的 组 件 ， 甚 至 可 以 构建 自己 的 Cloud.gov 
实例 。SSP 开放 文档 是 与 OpenControl 社区 密切 合作 完成 的 。 


22.8 将 信息 安全 集成 到 生产 环境 遥测 中 


Verizon 的 数据 泄露 研究 员 Marcus Sachs 在 2010 年 说 :“ 年 复 一 年 ， 在 绝 大 多 数 持 卡 人 数据 
油 露 事件 中 , 组 织 在 几 个 月 其 至 几 个 季度 之 后 才 检 测 到 安全 违规 行为 。 更 糟糕 的 是 , 检测 到 违规 
行为 的 并 不 是 内 部 的 监控 系统 ,而 更 可 能 是 组 织 外 部 的 人 , 通常 是 发 现 其 诈 交 易 的 商业 伙伴 或 客 
户 。 这 里 的 一 个 主要 原因 是 ,组织 中 没有 人 定期 审查 日 志文 件 。” 


换 句 话说 , 内 部 安全 控制 通常 无 法 及 时 、 成 功 地 检测 到 违规 行为 。 这 是 由 于 监控 中 存在 盲点 ， 
或 者 组 织 中 没有 人 在 日 常 工作 中 检查 相关 的 遥测 。 


在 第 14 章 中 ,我 们 讨论 了 在 开发 和 运 维 中 创建 一 种 文化 ， 让 价值 流 中 的 每 个 人 参与 建立 生 
产 遥 测 系统 和 指标 , 将 所 有 监控 信息 公开 , 使 每 个 人 都 可 以 看 到 服务 在 生产 环境 中 的 表现 。 此 外 ， 
我 们 还 探索 了 不 懈 寻 找 微弱 故障 信号 的 必要 性 ,从 而 可 以 在 灾难 性 故障 发 生 之 前 就 定位 并 解决 
问题 。 

这 里 ,我 们 部 署 必要 的 监控 、 日 志 记录 和 告警 系统 ， 以 在 应 用 程序 和 环境 中 全 面 实现 信息 安 
全 目标 ， 并 确保 其 充分 集中 化 ， 以 便 进 行 简单 、 有 意义 的 分 析 和 响应 。 

通过 将 安全 遥测 集成 到 开发 、QA 以 及 运 维 使 用 的 工具 中 ， 价 值 流 中 的 每 个 人 都 可 以 看 到 应 
用 程序 和 环境 在 恶意 威胁 入 侵 中 的 表现 , 包括 : 攻击 者 不 断 尝试 利用 漏洞 , 获得 未 经 授权 的 访问 ， 
植 和 后门， 执行 欺诈 ， 拒 绝 服务 等 破坏 活动 。 

公开 将 服务 在 生产 环境 中 遭遇 攻击 的 过 程 展示 给 所 有 人 ，, 能 迫使 每 个 人 考虑 安全 风险 , 并 且 
在 日 常 工 作 中 设计 对 策 。 

























































































QO@ 这 些 批 准 称 为 FedRAMP JAB P-ATO。 
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22.9 在 应 用 程序 中 建立 安全 遥测 系统 
有 问题 的 用 户 行为 可 以 揭示 或 引发 欺诈 和 未 授权 的 访问 , 为 了 进行 检测 ,必须 在 应 用 程序 中 
创建 相关 的 遥测 系统 。 
这 样 的 例子 包括 : 
口 成 功 和 不 成 功 的 用 户 登 录 ; 
口 用 户 密 码 重 置 ; 
口 用 户 电 子 邮 件 地 址 重 置 ; 
口 用 户 信用 卡 更 改 。 


例如 , 暴力 登录 是 企图 获取 非法 访问 权限 的 早期 迹象 , 因此 可 以 显示 失败 和 成 功 登录 次 数 的 
比率 。 当 然 ， 我 们 应 该 对 这 些 重要 事件 建立 告警 策略 ， 以 确保 能 够 快速 检测 和 纠正 问题 。 









































22.10 ”在 环境 中 建立 安全 遥测 系统 


除了 完善 应 用 程序 , 还 需要 在 环境 中 创建 全 面 的 遥测 系统 ,以 便 能 够 尽早 检测 未 授权 访问 的 
迹象 ， 特 别 是 对 于 运行 在 非 受 控 基 础 设施 上 ( 例如， 托管 环境 、 云 端 ) 的 组 件 。 


我 们 需要 对 茶 些 事件 做 监控 和 告警 ， 包 括 : 


口 操作 系统 的 变更 ( 例如， 生产 环境 中 、 构 建 基础 设施 中 ); 
口 安全 组 的 变更 ; 

口 配置 的 变更 (例如,，OSSEC、Puppet、Chef、Tripwire ); 
口 云 基础 设施 变更 ( 例如，VPC、 安 全 组 、 用 户 和 权限 ); 
口 XSS 尝试 ( 即 “ 跨 站 点 脚本 攻击 ”); 

口 SQLi 尝试 ( 即 “SQL 注入 攻击 ”); 

口 Web 服务 器 错误 ( 例如，4xx 和 5xx 错 误 )。 





























我 们 还 要 确认 已 正确 配置 了 日 志 记 录 , 以便 将 所 有 遥测 信息 发 送 到 正确 的 地 方 。 在 监测 攻击 
时 ,除了 记录 事件 ,还 可 以 选择 拦截 访问 ,并 保存 访问 来 源 和 目标 的 信息 ， 以 帮助 我 们 选择 最 佳 
的 规避 措施 。 














* 案例 研究 * 
完善 Etsy 的 环境 (2010) 


2010 年 ，Nick Galbreath 在 Etsy 担任 工程 总 监 ， 负 责 信 息 安 全 、 欺 诈 控 制 和 隐私 。 
Galbreath 将 欺诈 定义 为 ， 当 “系统 运行 不 正确 时 ， 让 无 效 或 未 经 检查 的 输入 进入 系统 ， 
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从 而 造成 财务 损失 、 数 据 丢 失 /被 盗 、 系 统 停 机 、 破 坏 ， 或 者 对 另 一 个 系统 的 攻击 ”。 


Galbreath 没有 为 了 实现 这 些 目标 组 建 单独 的 反 欺 诈 或 信息 安全 部 门 , 而 是 将 这 些 责 
任 融 入 到 了 DevOps 价值 流 中 。 


Galbreath 创建 了 安全 相关 的 送 测 系统 ， 将 其 与 每 个 Etsy 工程 师 日 常 关注 的 、 面 向 
开发 和 运 维 的 监控 指标 显示 在 一 起 ， 包 括 如 下 内 容 。 


口 生产 程序 的 异常 终止 (例如 ， 段 错误 、 内 核 转 储 等 ):“ 需 要 特别 关注 的 是 ， 为 
什么 菜 些 进程 在 整个 生产 环境 中 持续 发 生 的 内 核 转 储 全 都 是 被 来 自 同 一 个 人 PP 地 
址 的 流量 反复 触发 的 。 同样 需 要 关注 的 还 有 那些 HTTP 报错 信息 “500 内 部 服务 
器 错误 " 。 这 些 指标 表明 一 个 漏洞 正在 被 利用 ， 有 人 想 非 法 访问 我 们 的 系统 ， 并 
且 需 要 紧急 给 应 用 打 补 丁 。 

口 数据 库 语 法 错误 :“ 我 们 一 直 在 代码 中 寻找 数据 库 语 法 错误 一 一 这 些 错误 要 么 
齐 到 SQL 注入 攻击 ， 要 么 是 正在 进行 的 攻击 。 因 此 ， 我 们 不 能 ，， 
据 库 语法 错误 ， 它 仍然 是 用 于 危害 系统 的 主要 攻击 向 量 。 

口 SQL 注入 攻击 的 迹象 :“ 有 一 个 简单 得 荒 谓 的 测试 I 
段 设置 关键 字 为 UNION ALL 的 告警 ， 因 为 它 几 乎 总 是 表明 SQL 注入 攻击 。 我 
们 还 添加 了 单元 测试 ， 以 确保 这 种 不 受 控制 的 用 户 输入 类 型 永远 不 能 进入 数据 
库 查询 。” 


图 22-3 是 每 个 开发 人 员 将 看 到 的 监控 指标 图 表 , 其 中 显示 了 生产 环境 中 潜在 的 SQL 
注入 攻击 数量 。 正 如 Galbreath 所 说 ,“ 没 有 什么 比 实时 地 看 到 自己 的 代码 在 遭 到 攻击 更 
能 帮助 开发 人 员 理 解 运 作 环 境 危机 四 伏 了 ”。 








潜在 的 SQL 注 入 
习 012% 
信 010% 
S 0.08% 
让 0.06% 
光 0.04% 
起 0.02% 
bay 0 
02/25 02/26 02/27 02/28 02/29 03/01 03/02 


图 22-3 开发 人 员 在 Etsy 的 Graphite 中 看 到 的 SQL 注入 攻击 
(来 源 : Nick Galbreath 在 2012 年 奥斯汀 DevOpsDays 的 演讲 “DevOpsSec: 将 DevOps 实践 应 用 于 安全 ”， 发 布 于 SlideShare.net， 
2012 年 4 月 12 日，http://www.slideshare.net/nickgsuperstar/devopssec-apply-devops-principles-to-security )。 














Galbreath 评价 道 :“ 展 示 该 图 表 的 一 个 结果 是 ， 开 发 人 员 意 识 到 了 他 们 一 直 在 遭受 
攻击 ! 这 好 极 了 ， 因 为 它 改 变 了 开发 人 员 编 码 时 对 代码 安全 性 的 考量 。” 


22.12 小结 219 





22.11 保护 部 署 流水 线 


支持 持续 集成 和 持续 部 署 流程 的 基础 设施 ,也 成 了 易 受 攻击 的 新 领域 。 例 如 ， 如 果 有 人 攻陷 
了 运行 部 署 流水 线 的 服务 器 ,而且 该 部 署 流水 线 保 存 着 版 本 控制 系统 的 登录 账户 信息 , 他们 就 能 
窃取 程序 的 源 代 码 。 更 糟 的 是 ， 如 果 部 署 流水 线 里 的 账户 具有 写 访问 权限 ,攻击 者 还 可 能 将 恶意 
更 改 注入 版 本 控制 系统 ， 从 而 将 恶意 更 改 注入 应 用 程序 和 服务 中 。 


正如 TrustWave SpiderLabs 前 高 级 安全 测试 员 Jonathan Claudius 所 说 :“ 持 续 构 建 和 测试 服务 
器 太 棒 了 , 我 自己 也 会 使 用 。 但 我 不 禁 开 始 思考 如 何 将 CVCD 用 作恶 意 代码 注入 方式 。 这 引发 了 
一 个 问题 : 哪里 是 隐藏 恶意 代码 的 好 地 方 ? 答案 很 明显 ， 就 是 单元 测试 中 。 没 有 人 真正 注意 单元 
测试 ， 而 它们 在 每 次 提交 代码 的 时 候 都 会 运行 。 


这 表明 ， 为 了 充分 保护 应 用 程序 和 环境 的 完整 性 ， 还 必须 减少 针对 部 署 流水 线 的 攻击 向 量 。 
风险 包括 开发 人 员 引 入 导致 未 授权 访问 的 代码 ( 通过 代码 测试 、 代 码 评审 和 渗透 测试 等 控制 措施 
缓解 )， 以 及 未 经 授权 的 用 户 获 取 应 用 或 者 环境 的 访问 权限 〈 通 过 以 下 控制 措施 减缓 : 确保 配置 
始终 处 于 已 知 和 良好 的 状态 ， 及 时 有 效 地 打 补 丁 )。 


然而 ， 为 了 保护 持续 构建 、 集 成 或 部 署 流水 线 ， 缓 解 风险 的 措施 还 可 能 包括 : 


口 加 固 持续 构建 和 集成 服务 器 ， 并 确保 可 以 用 自动 化 的 方式 重建 它们 ， 就 像 构建 面向 客户 

的 生产 服务 基础 架构 一 样 ， 防 止 持续 构建 和 集成 服务 需 受 到 破坏 ; 

D 审查 任何 提交 到 版 本 控制 系统 的 变更 一 一 可 以 在 提交 时 进行 结对 编程 ， 也 可 以 在 提交 和 
主干 合并 之 间 设 置 代码 评审 流程 一 一 从 而 防止 持续 集成 服务 顺和 运行 不 受 控 代 码 〈 例 如 ， 
单元 测试 可 能 包含 允许 或 触发 未 授权 访问 的 恶意 代码 ); 

口 检测 包含 可 疑 API 调用 的 测试 代码 〈 例 如 ， 访 问 文件 系统 或 网 络 的 单元 测试 ) 是 何 时 签 

入 到 代码 库 中 的 ， 然 后 可 以 立即 隔离 并 触发 代码 审查 ; 

口 确保 每 个 CI 流程 都 运行 在 自己 的 隔离 容器 或 虚拟 机 里 ; 

口 确保 CI 系统 使 用 的 版 本 控制 凭据 是 只 读 的 。 












































































































































22.12 ”小结 


本 章 介绍 了 将 信息 安全 目标 融入 日 常 工作 中 所 有 阶段 的 方法 。 那 就 是 通过 将 安全 控制 集成 到 
已 经 创建 的 机 制 中 , 确保 所 有 按 需 环境 都 处 于 加 固 的 低 风险 状态 , 以 及 通过 将 安全 测试 集成 到 部 
署 流水 线 中 , 确保 在 预 生产 和 生产 环境 中 创建 安全 遥测 系统 。 这 样 ,我 们 可 以 在 提高 开发 和 运 维 
效率 的 同时 ， 提 高 整体 安全 性 。 接 下 来 ， 我 们 将 保护 部 署 流水 线 。 



























































保护 部 署 流水 线 








本 章 将 探讨 如 何 保护 部 署 流水 线 , 以 及 如 何在 控制 环境 里 实现 安全 和 合 规 性 目标 , 包括 变更 
管理 和 职责 分 离 。 





23.1 将 安全 和 合 规 性 集成 到 变更 批准 流程 中 


拥有 一 定 规模 的 IT 组 织 几乎 都 有 自己 的 变更 管理 流程 ， 这 是 减少 运 维 和 安全 风险 的 主要 控 
制 手段 。 合 规 经 理 和 安全 经 理 依 赖 变更 管理 流程 来 满足 合 规 性 需求 , 并 且 通 常 需要 证 据 表明 所 有 
变更 都 已 得 到 了 适当 授权 。 


如 果 正 确 构建 了 部 署 流水 线 来 降低 部 署 风险 ， 那 么 大 部 分 变更 就 不 需要 经 过 手动 审批 流程 
了 ， 因 为 我 们 将 依赖 于 自动 化 测试 和 主动 生产 环境 监控 等 控制 措施 。 


在 这 个 步骤 里 , 我 们 将 采取 措施 确保 将 安全 和 合 规 性 成 功 地 整合 到 任何 已 有 的 变更 管理 流程 
中 。 有 效 的 变更 管理 政策 将 认识 到 不 同 的 类 型 变更 会 带 来 不 同 的 风险 , 并 且 有 不 同 的 方式 来 处 理 
不 同 的 变更 。ITIL 定义 了 这 些 流 程 ， 将 变更 分 为 如 下 3 种 类 型 。 


口 标准 变更 : 遵循 既定 批准 流程 的 低 风险 变更 ， 但 也 可 以 是 预 批准 的 。 这 种 类 型 的 变更 包 
括 应 用 程序 税 表 或 国家 /地 区 代码 的 每 月 更 新 ， 网 站 的 内 容 和 样式 变更 ， 以 及 有 已 知 影响 
的 应 用 或 操作 系统 补丁 。 变 更 申请 人 在 部 署 变更 之 前 是 不 需要 审批 的 ， 变 更 的 部 署 可 以 
完全 自动 化 ， 而 且 应 该 留 下 用 于 追溯 的 日 志 。 

口 常规 变更 : 风险 更 高 、 需 要 权威 机 构 评审 或 批准 的 变更 。 在 许多 组 织 中 ， 将 审批 职责 交 
给 变更 顾问 委员 会 (CAB ) 或 紧急 变更 顾问 委员 会 (ECAB ) 是 不 太 合理 的 ， 因 为 他 们 可 
能 缺乏 理解 变更 全 部 影响 的 必要 专业 知识 ， 往 往 导 致 令 人 无 法 忍受 的 漫长 交付 周期 。 对 
于 大 规模 代码 部 署 而 言 ， 这 个 问题 尤为 严重 。 大 规模 部 署 可 能 包含 几 百 名 开发 人 员 在 几 
个 月 的 开发 过 程 中 提交 的 数 十 万 ( 甚至 数 百 万 ) 行 代码 。 为 了 完成 对 常规 变更 的 授权 ， 
变更 顾问 委员 会 几乎 肯定 会 要 求 提供 定义 清晰 的 变更 请 求 单 ( RFC )， 为 做 决策 提供 所 需 
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信息 。 变 更 请 求 单 通常 包含 期 望 的 业务 结果 、 计 划 的 效用 和 保障 "、 写 明 风 险 和 规避 方案 
的 业务 案例 ， 以 及 建议 的 时 间 表 。” 

口 紧急 变更 : 在 紧急 情况 下 必须 立即 投入 生产 环境 的 变更 〈 例 如 ， 紧 急 安 全 补丁 、 恢 复 服 
务 ), 属于 潜在 的 高 风险 变更 。 这 些 变更 通常 需要 得 到 高 级 管理 层 批准 ,但 也 允许 先 执行 
变更 操作 ， 之 后 补 上 文档 。DevOps 实践 的 一 个 关键 目标 是 简化 常规 变更 流程 ， 使 其 同样 
适用 于 紧急 变更 。 




















23.2 ”将 大 量 低 风 险 变 更 重新 归 类 为 标准 变更 


理想 情况 下 , 通过 建立 可 靠 的 部 署 流程 ,我 们 已 经 因 快速 、 可 靠 和 非 剧烈 的 部 署 而 名 声 在 外 
了 。 在 此 基础 之 上 , 应 该 让 运 维 部 门 和 相关 变更 机 构 认 同 我 们 所 做 的 变更 风险 很 低 , 可 以 归 类 为 
变更 顾问 委员 会 预审 批 的 标准 变更 。 这 样 ,无 需 进 一 步 的 审批 就 可 以 直接 部 署 到 生产 环境 , 不 过 
当然 还 是 应 该 正确 记录 这 些 变更 。 


为 了 证 明 变更 的 风险 较 低 , 一 种 参考 做 法 是 : 展示 相当 长 时 间 里 ( 例如, 几 个 月 或 一 个 季度 ) 
的 变更 历史 记录 , 并 且 整 理 出 同期 生产 环境 里 的 完整 问题 清单 。 如 果 能 够 证 实 变 更 成 功率 高 ， 而 
且 平 均 故 障 恢复 时 间 (MTTR ) 短 ， 那 么 就 能 断言 我 们 处 在 能 有 效 预 防 部 署 错误 的 可 控 环 境 中 ， 
同时 证 明了 能 够 快速 检测 和 纠正 任何 问题 。 


即使 将 这 些 变更 归 类 为 标准 变更 , 出 于 可 视 化 管理 的 需求 , 仍然 需要 记录 在 变更 管理 系统 中 
(例如 ，Remedy 或 ServiceNow )。 理 想 情 况 下 ， 将 使 用 配置 管理 工具 和 部 署 流水 线 工 具 ( 例如 ， 
Puppet、Chef、Jenkins ) 自动 执行 部 署 ， 并 且 自 动 记录 部 团结 果 。 这 样 ， 组 织 中 的 每 个 人 (不论 
是 否 为 DevOps ) 都 能 了 解 到 我 们 的 变更 ， 并 且 也 能 了 解 组 织 中 发 生 的 所 有 其 他 变更 了 。 


我 们 可 以 自动 将 这 些 变更 请 求 单 链接 到 工作 计划 工具 ( 例如，JIRA、Rally、LeanKit、 
ThoughtWorks Mingle ) 里 的 特定 工作 条 目 上 , 以 便 为 变更 创建 更 多 上 下 文 , 例如 链接 到 特性 缺陷 、 
生产 事件 或 用 户 故 事 。 也 可 以 采用 一 种 轻 量 级 的 实现 方式 , 在 版 本 控制 系统 中 所 签 入 代码 的 注释 
里 包含 项 目 计划 工具 的 票 单 号 ”。 这 样 就 可 以 把 生产 环境 部 署 追溯 到 版 本 控制 中 的 变更 ， 并 进 一 
步 追 溯 到 项 目 计 划 工 具 中 对 应 的 票 单 。” 

































































































































































QD ITIL 将 效用 定义 为 “服务 能 为 用 户 做 什么 "， 将 保障 定义 为 “怎样 交付 服务 和 可 以 怎样 使 用 服务 ， 用 来 确定 服务 
是 否 “ 合 用 ”” 

















@ 为 了 进一步 管理 有 风险 的 变更 ， 可 能 需要 定义 一 些 规则 ， 比 如 某 些 变更 只 能 由 某 个 小 组 或 某 个 人 实施 ( 例如 ， 只 
有 DBA 可 以 部 署 数据 库 模式 变更 ) 传统 上 ， 变更 顾问 委员 会 每 周 举行 一 次 变更 请 求 的 批准 和 排 程 会 议 。 从 ITIL 23 
v3 开始 , 使 用 电子 形式 的 变更 管理 工具 实时 批准 变更 成 为 了 可 接受 的 方式 。 它 还 特别 建议 “在 利用 变更 管理 流程 
优化 效率 时 ， 应 尽早 识别 所 有 标准 变更 。 否 则 ， 会 给 变更 管理 的 实施 带 来 大 量 不 必要 的 管理 工作 和 阻力 ”。 
@ 术语 “ 票 单 ”一 般 用 于 表示 任何 工作 条 目的 唯一 标识 。 
@ 这 里 描述 的 追溯 路 径 是 : 变更 单 (Remedy ) 一 代码 库 里 的 代码 提交 ( GitLab ) 一 项 目 计 划 工 具 ( JIRA )。 
一 一 译 者 注 
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建立 这 种 可 追溯 性 和 上 下 文联 系 应 该 很 容易 ， 不 应 该 为 工程 师 造 成 太 繁重 或 耗 时 的 工作 负 
担 。 链接 到 用 户 故 事 、 需 求 或 缺陷 几乎 已 经 完全 够 用 了 ,更 多 细节 ( 例如， 为 版 本 控制 系统 中 的 
每 次 代码 提交 都 建立 一 个 票 单 ) 可 能 没 意 义 、 也 没 必要 ， 因 为 会 显著 增加 日 常 工作 的 阻力 。 














23.3 ”如 何 处 理 常 规 变更 


不 能 归 类 为 标准 变更 的 变更 属于 常规 变更 , 在 部 署 前 至 少 需要 得 到 变更 顾问 委员 会 部 分 成 员 
的 批准 。 在 这 种 情况 下 ， 即 使 部 署 工作 并 不 是 完全 自动 化 的 ， 我 们 的 目标 仍然 是 保障 快速 部 署 。 


在 这 种 情况 下 ,必须 确保 提交 的 变更 请 求 单 尽 可 能 完整 、 准 确 , 为 变更 顾问 委员 会 提供 正确 
评估 所 需 的 一 切 信息 。 如 果 变 更 请 求 的 格式 不 正确 或 信息 不 完整 ， 就 会 被 退回 ， 这 除了 会 增加 
进入 生产 环境 所 需 的 时 间 之 外 , 还 会 让 我 们 对 自己 是 否 真 正 理解 了 变更 管理 流程 的 真实 目标 产生 
怀疑 。 


我 们 基本 上 一 定 能 自动 化 创建 信息 完整 和 准确 的 变更 请 求 单 , 在 票 单 中 填 入 正确 的 详细 变更 
言 息 。 例如, 可 以 自动 化 创建 一 个 ServiceNow 变更 票 单 , 并 在 里 面包 含 JIRA 中 用 户 故 事 的 链接 ， 
来 自 部 署 流水 线 工 具 的 构建 清单 和 测试 输出 ， 以 及 将 要 执行 的 Puppet/Chef 脚本 的 链接 。 


因为 提交 的 变更 将 被 手动 评估 , 所 以 对 变更 上 下 文 的 描述 显得 愈 发 重要 。 这 包括 指出 变更 的 
原因 例如， 提供 指向 特性 、 缺 陷 或 事件 的 链接 )， 变 更 影响 到 的 人 员 ， 以 及 变更 的 内 容 。 


我 们 的 目标 是 分 享 让 我 们 充满 信心 的 证 据 和 工件 , 它们 保证 变更 在 生产 环境 里 会 像 设 计 的 那 
样 起 作用 。 虽然 变 更 请 求 单 通常 包含 自由 格式 的 文本 框 字段 , 但 我 们 应 提供 指向 机 器 可 读数 据 的 
链接 ， 从 而 为 其 他 人 集成 和 处 理 我 们 的 数据 ( 例如， 指向 JSON 文件 的 链接 ) 提供 便利 。 


在 许多 工具 链 中 ,以 上 工作 能 以 兼容 和 完全 自动 化 的 方式 完成 ,例如 ,ThoughtWorks 的 Mingle 
和 GoCD "可 以 自动 将 很 多 信息 链接 到 一 起 并 放 和 人 变更 请 求 单 ， 如 形成 与 变更 相关 的 缺陷 补丁 和 
新 功能 列表 。 


提交 变更 请 求 单 后 ,变更 顾问 委员 会 的 相关 成 员 将 审核 、 处 理 和 批准 变更 。 所 有 变更 请 求 单 
的 处 理 方式 都 与 此 相同 。 如 果 一 切 顺利 ,变更 机 构 会 赞赏 变更 单 的 周密 程度 和 丰 寅 细节， 因为 我 
们 让 他 们 可 以 快速 地 校 验 我 们 提交 的 这 些 信息 的 正确 性 (例如, 查看 部 署 流水 线 工具 链接 到 的 工 
件 )。 然 而 ,我 们 的 目标 应 该 是 持续 展示 成 功 变更 的 样板 记录 ， 从 而 最 终 使 其 认同 能 将 自动 化 变 
更 安全 地 归 类 为 标准 变更 。 



















































































































































































G@ Mingle 和 GoCD 分 别 是 项 目 管理 软件 和 流水 线 工 具 。 一 一 译 者 注 
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* 案例 研究 * 
Salesforce.com 将 自动 化 基础 架构 变更 归 类 为 标准 变更 〈2012 1) 


Salesforce 成 立 于 2000 年 ， 旨 在 让 客户 关系 管理 触手 可 及 ， 并 将 其 作为 一 项 可 交付 
的 服务 提供 。Salesforce 的 服务 在 市 场 上 广 受 欢迎 ， 因 此 在 2004 年 成 功 完 成 了 IPO。 到 
2007 年 , 公司 拥有 59000 多 个 企业 客户 , 每 天 处 理 数 亿 次 交易 ， 年 收入 为 4.97 亿美 元 。 


然而 ， 大 约 在 同一 时 期 ， 他 们 为 客户 开发 和 发 布 新 功能 的 能 力 几 乎 停滞 了 。2006 
年 ， 他 们 为 客户 做 了 四 次 重大 发 布 ; 到 了 2007 年 ， 尽 管 雇用 的 工程 师 更 多 ,但 是 只 能 
够 实现 一 次 发 布 。 结 果 是 ， 每 个 团队 交付 的 功能 数量 持续 减少 ,主要 发 布 之 间 的 时 间 间 
隔 持续 增加 。 

此 外 ， 由 于 每 次 发 布 的 批量 大 小 不 断 变 大 ， 部 署 的 结果 也 不 断 恶 化 。 当 时 的 基础 架 
构 工 程 副 总 裁 人 arthik Rajan 在 2013 年 的 一 次 演讲 中 表示 ，2007 年 标志 着 “用 瀑布 流程 
进行 软件 研发 和 交付 的 最 后 一 年 ， 之 后 更 多 转向 了 增 量 交付 过 程 ”。 

在 2014 年 的 DevOps 企业 峰会 上 ，Dave Mangot 和 Reena Mathew 描述 了 始 于 2009 
年 并 持续 多 年 的 DevOps 转型 。 据 说 ， 通 过 实施 DevOps 原则 和 实践 ， 该 公司 截至 2013 
年 将 部 署 前 置 时 间 从 6 天 缩短 为 分钟。 因此 , 他 们 可 以 轻松 扩容 , 每 天 能 处 理 超过 10 
亿 次 交易 。 

Salesforce 转型 的 主题 之 一 是 使 质量 工程 成 为 每 个 人 的 任务 ， 不 管 是 开发 、 运 维 ， 
还 是 信息 安全 人 员 。 为 此 ,他 们 将 自动 化 测试 集成 到 了 应 用 程序 和 环境 创建 的 各 个 阶段 ， 
以 及 持续 集成 和 持续 部 署 的 过 程 中 , 并 创建 了 开源 工具 Rouster 来 进行 Puppet 模块 的 功 
能 测试 。 

他 们 还 开始 定期 进行 破坏 性 测试 。 这 是 制造 业 的 术语 ， 指 的 是 在 最 严酷 的 操作 条 件 
下 执行 长 时 间 的 耐久 性 测试 ， 直 到 氛 毁 测试 部 件 。Salesforce 团队 开始 定期 使 用 逐渐 上 
升 的 负载 执行 破坏 性 测试 ， 直 到 服务 前 溃 。 这 帮助 他 们 理解 了 各 种 故障 模式 ， 并 进行 了 
相应 的 纠正 。 不 出 所 料 ， 在 正常 生产 负荷 下 ， 服 务 质量 得 到 了 大 幅 提 高 。 

在 项 目的 最 初 阶段 ,信息 安全 部 门 还 与 质量 工程 部 门 合作 ,在 架构 和 测试 设计 等 关 
键 阶段 不 断 协 作 ， 很 好 地 将 安全 工具 集成 到 了 自动 化 测试 流程 之 中 。 

变更 管理 团队 告诉 Mangot 和 Mathew,“ 通 过 Puppet 实施 的 基础 架构 变更 现在 变 成 
了 “标准 变更 * ， 有 时 甚至 不 需要 变更 顾问 委员 会 审批 ”。 对 于 他 们 来 说 ， 这 是 在 流程 里 
导入 重复 性 和 严格 性 的 一 个 重大 成 就 。 此 外 ， 他 们 指出 “还 是 需要 对 基础 架构 的 手动 变 
更 进行 审批 ”。 

这 不 仅 将 DevOps 流程 和 变更 管理 流程 集成 了 起 来 ， 还 为 更 多 的 基础 架构 自动 化 变 
更 流程 创造 了 前 进 的 动力 。 
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23.4 ”减少 对 职责 分 离 的 依赖 


儿 十 年 来 ,我 们 将 职责 分 离 用 作 减 少 软件 开发 过 程 中 欺诈 或 犯错 风险 的 主要 控制 手段 之 一 。 
大 多 数 软 件 开发 生命 周期 都 已 经 接受 的 做 法 是 : 要 求 将 开发 人 员 变 更 提交 给 代码 库 管理 员 接 受审 
查 和 批准 变更 ， 然 后 由 IT 运 维 将 变更 部 署 到 生产 环境 。 


运 维 工作 中 也 有 很 多 争议 并 不 太 大 的 职责 分 离 案例 。 例如 , 理想 情况 下 服务 器 管理 员 能 够 查 
看 日 志 但 不 能 删除 或 修改 ， 从 而 防止 有 权限 的 人 删除 欺诈 或 其 他 罪行 的 证 据 。 


当 生 产 环境 部 署 不 太 频 繁 ( 如 每 年 一 次 ) 且 工 作 尚 不 复杂 时 ,工作 划分 和 工作 交接 是 可 行 的 
业务 方式 。 然而, 随 着 复杂 性 和 部 署 频率 的 提升 ， 成功 地 执行 生产 环境 部 署 就 愈 发 要 求 价值 流 中 
的 所 有 人 都 能 迅速 看 到 工作 的 执行 结果 。 


愉 责 分 离 会 减 慢 和 减少 工程 师 在 工作 中 获得 反馈 ,可 能 对 上 述 要 求 造成 阻碍 。 这 妨碍 了 工程 
师 对 工作 质量 承担 全 部 责任 ， 降 低 了 企业 创建 组 织 学 习 的 能 力 。 

因此 ,在 可 能 的 情况 下 ,应 避免 使 用 职责 分 离 作 为 控制 手段 。 我 们 应 该 选择 结对 编程 、 持 续 
今 查 代码 签 信和 代码 审查 等 , 它们 能 为 工作 质量 提供 必要 的 保障 。 此 外 , 实施 这 些 控制 手段 之 后 ， 
如 果 需 要 分 离职 责 ， 我 们 也 能 证 明 已 经 创建 的 控制 手段 能 实现 同样 的 结果 。 




























































































* 案例 研究 * 
Etsy 的 PCI 合 规 性 和 一 个 关于 职责 分 离 的 警世 故事 〈2014 ) 


Bill Massie 是 Etsy 的 开发 经 理 ， 负 责 名 为 ICHT (ICan Haz Tokens ) 的 支付 应 用 。 
ICHT 通过 一 组 内 部 开发 的 支付 处 理应 用 程序 来 处 理 客户 的 信用 订单 。 这 些 应 用 程序 是 
这 样 处 理 线 上 订单 输入 的 : 获取 并 标记 客户 输入 的 持 卡 人 数据 ,与 支付 处 理 器 通信 ， 完 
成 订单 交易 。" 


因为 支付 卡 行 业 数据 安全 标准 (PCI DSS ) 声明 持 卡 人 数据 环境 ( CDE ) 的 范围 是 
“存储 、 处 理 或 传输 持 卡 人 数据 或 敏感 认证 数据 的 人 员 、 过 程 和 技术 ”， 包 括 连 接 的 任何 
系统 组 件 ， 所 以 ICHT 应 用 程序 在 PCI DSS 的 范围 之 内 。 


为 了 涵盖 PCIDSS 的 范围 , ICHT 应 用 程序 在 物理 和 逻辑 上 与 Etsy 组 织 的 其 他 事务 
分 离 ， 由 一 个 完全 独立 的 应 用 程序 团队 管理 ， 其 中 有 开发 人 员 、 数 据 库 工 程 师 、 网 络 工 
程 师 和 运 维 工程 师 。 每 个 团队 成 员 都 有 两 台 笔 记 本 电脑 : 一 台 用 于 ICHT (为 满足 DSS 
要 求 而 配置 不 同 ， 而 且 不 使 用 时 锁 在 保险 柜 中 )， 一 台 用 于 Etsy 的 其 余 事 务 。 











中 感谢 Bill Massie 和 John Allspaw 用 一 整 天 时 间 与 Gene Kim 分 享 他 们 的 合 规 经 验 。 
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这 样 ， 他 们 能 将 持 卡 人 数据 环境 与 Etsy 组 织 的 其 余 环境 分 离 ， 将 PCI DSS 规则 的 
范围 限制 在 一 个 隔离 区 域 中 。 组 成 持 卡 人 数据 环境 的 系统 在 物理 、 网 络 、 源 代码 和 逻辑 
基础 架构 层次 上 都 与 Etsy 的 其 他 环境 分 离 (管理 也 不 同 )。 此 外 ， 持 卡 人 数据 环境 是 由 
一 个 只 负责 CDE 的 跨 职能 团队 构建 和 运 维 的 。 


ICHT 团队 不 得 不 改变 他 们 的 持续 交付 实践 , 以 满足 代码 审批 的 需要 。 根 据 PCIDSS 
V3.1 的 6.3.2 节 ， 小 组 应 检视 : 


发 布 到 生产 环境 或 交付 客户 之 前 的 所 有 自 定 义 代码 ， 以 便 (手动 或 自动 ) 
识别 任何 潜在 的 编码 漏洞 ， 如 下 所 示 。 


口 代码 变更 是 由 原始 作者 之 外 的 个 人 审查 的 吗 ? 是 由 熟悉 代码 审查 技术 
和 安全 编码 实践 的 个 人 审查 的 吗 ? 

口 代码 审查 是 否 确保 了 代码 是 根据 安全 编码 指南 开发 的 ? 

口 在 发 布 前 是 否 进行 了 适当 的 修正 ? 

吕 在 发 布 前 ， 管 理 层 是 否 对 代码 审查 结果 进行 了 审核 和 批准 ? 





为 了 满足 这 一 要 求 ， 团 队 最 初 指定 Bill Massie 担任 变更 审批 人 ,负责 所 有 部 署 到 生 
产 环境 中 的 变更 。 目 标 部 署 标记 在 JIRA 中 ，Massie 会 将 其 标记 为 已 审核 和 已 批准 ， 并 
手动 部 署 到 ICHT 的 生产 环境 中 。 


这 使 Etsy 满足 了 PCI DSS 的 要 求 ， 并 获得 了 评估 员 签 署 的 合 规 报 告 。 然 而 ， 团 队 
却 产生 了 严重 的 问题 。 


Massie 观察 到 ， 一 个 令 人 不 安 的 副作用 “是 在 ICHT 团队 中 发 生 的 “分 化 ”， 而 这 
在 Etsy 的 其 他 团队 都 没有 出 现 过 。 实 施 了 PCI DSS 合 规 性 所 要 求 的 职责 分 离 和 其 他 控 
制 手 段 以 后 ， 在 这 种 环境 里 再 也 没有 人 能 够 成 为 全 栈 工程 师 了 ”。 


因此 ， 尽 管 Etsy 的 其 他 开发 和 运 维 团队 能 密切 合作 ， 顺 利 而 有 信心 地 进行 部 署 变 
和 更， 但 是 Massie 指出 :“ 在 我 们 的 PCI 环境 中 ， 存 在 着 对 部 署 和 维护 的 丽 惧 和 抗拒 ， 因 
为 没有 人 能 够 看 到 自己 软件 栈 以 外 的 部 分 。 我 们 对 工作 方式 所 做 的 改变 看 似 微小 , 但 似 
乎 已 经 在 开发 人 员 和 运 维 人 员 之 间 筑 造 了 一 道 难以 逾越 的 壁垒 。 不 可 否认 , 这 导致 了 一 
种 紧张 的 局 面 。 自 2008 年 以 来 ，Etsy 还 没有 没有 出 现 过 这 样 的 情况 。 即 使 你 对 自己 的 
这 一 部 分 有 信心 ， 也 很 难 相信 别人 的 变更 不 会 对 其 造成 破坏 。 


本 案例 研究 表明 , 在 应 用 DevOps 的 组 织 中 可 以 实现 合 规 性 。 然 而, 需要 注意 的 是 ， 
与 高 绩效 DevOps 团队 相关 的 所 有 优势 都 是 脆弱 的 一 一 即使 对 于 具有 高 度 信任 和 共同 目 
标的 团队 而 言 ， 实 施 低 信任 控制 机 制 也 可 能 让 成 员 陷 入 挣扎 。 
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23.5 ”确保 为 审计 人 员 和 合 规 人 员 留 存 文档 和 证 据 


随 着 技术 组 织 越 来 越 多 地 应 用 DevOps 模式 , IT 和 审计 之 间 的 关系 变 得 比 以 往 任何 时 候 都 更 
加 紧张 。 这 些 新 的 DevOps 模式 挑战 了 有 关 审 计 、 控 制 和 风险 规避 的 传统 思维 。 


亚马逊 云 服务 (AWS ) 的 首席 安全 解决 方案 架构 师 Bil Shinn 指出 :“DevOps 弥补 了 开发 和 
运 维 之 间 的 鸿沟 。 从 某 些 方面 看 ， 弥 合 DevOps 与 审计 和 合 规 人 员 之 间 缺 口 的 挑战 性 则 更 大 。 举 
个 例子 ， 有 多 少 审 计 人 员 能 读 懂 代码 ? 有 多 少 开 发 人 员 能 读 懂 NIST 800-37 或 
Gramm-Leach-Bliley 法 案 ? 这 造成 了 知识 的 鸿沟 ， 而 DevOps 社区 需要 帮助 弥合 这 一 鸿沟 。 
































* 案例 研究 * 
证 明 监管 环境 下 的 合 规 性 〈2015) 


Bill Shinn 作为 AWS 首席 安全 解决 方案 架构 师 的 职责 之 一 是 , 帮助 大 型 企业 客户 证 
明 他 们 仍然 能 遵从 所 有 相关 法 律 法 规 。 多 年 来 ， 他 曾 与 1000 多 家 企业 客户 一 起 工作 ， 
包括 Hearst Media、 通 用 电气 、 飞 利 浦 和 太平 洋人 寿 。 这 些 企业 曾 公 开 提 及 将 公有 云 用 
于 高 度 监管 的 环境 。 


Shinn 指出 :“ 一 个 问题 是 ， 审 计 人 员 受 训 的 工作 方法 不 太 适 用 于 现在 的 DevOps 工 
作 模 式 。 例 如 ， 如 果 审 计 人 员 看 到 一 个 有 10 000 台 生 产 服务 器 的 环境 ， 那 么 按照 所 受 
的 传统 训练 ， 他 需要 1000 台 服 务 器 的 采样 数据 ， 以 及 在 资产 管理 、 访 问 控制 设置 、 代 
理 安装 、 服 务 器 日 志 等 方面 的 屏幕 截图 证 据 。 


“这 对 于 物理 环境 来 说 是 没有 问题 的 ,”Shinn 补充 说 ,“ 但 是 在 基础 设施 即 代码 的 实 
践 中 ,， 当 自动 扩展 总 是 不 断 创建 和 销毁 服务 器 时 ， 又 该 如 何 采样 呢 ? 在 运行 部 署 流水 线 
时 ,也 会 遇 到 相同 的 问题 一 一 做 法 与 一 个 团队 编写 代码 、 另 外 一 个 团队 将 代码 部 署 到 生 
产 环 境 中 的 传统 软件 开发 过 程 完全 不 同 。 


他 解释 道 :“ 在 现场 审计 工作 中 ， 收 集 证 据 的 最 常见 方式 仍然 是 屏幕 截图 ， 以 及 填 
有 配置 设置 和 日 志 内 容 的 CSV 文件 。 我 们 的 目标 是 : 创建 提供 数据 的 替代 方法 ， 用 来 
清楚 地 向 审计 人 员 展 示 控 制 手段 的 运行 方式 和 有 效 性 。” 


为 了 帮助 弥合 之 前 提 到 的 知识 鸿沟 ， 他 在 设计 控制 的 过 程 中 就 开始 与 审计 人 员 合 
作 。 他 们 使 用 和 迭代 方法 ， 在 每 个 冲刺 里 加 入 一 项 控制 手段 ， 以 确认 审计 需要 什么 作为 证 
据 。 这 有 助 于 确保 当 服务 在 生产 环境 中 运行 时 , 审计 人 员 能 完全 按 需 地 获取 所 需 的 信息 。 
Shinn 认为 ， 实 现 这 一 目标 的 最 好 方法 是 “将 所 有 数据 发 送 到 须 测 系统 ， 如 Splunk 
或 Kibana。 这样， 审计 员 完 全 可 以 用 自助 的 方式 得 到 所 需 的 信息 。 他 们 不 需要 请 求 数据 
采样 ， 而 是 先 登 录 Kibana 系统 ， 然 后 搜索 特定 时 间 段 里 的 审计 信息 。 理 想 情况 下 ， 他 
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们 很 快 就 能 看 到 控制 手段 有 效 的 支撑 证 据 ”。 


Shinn 还 说 :“ 使 用 最 新 的 审计 日 志 记 录 、 聊 天 室 和 部 署 流水 线 之 后 ， 生 产 环境 有 了 
前 所 未 有 的 可 见 性 和 透明 度 , 特别 是 与 过 去 传统 的 运 维 方式 比较 而 言 ， 引 入 错误 和 安全 
漏洞 的 可 能 性 都 远 远 降低 。 因 此 ,我 们 的 挑战 成 了 怎样 把 所 有 证 据 变 成 审计 人 员 认 可 的 
东西 。 


这 需要 从 实际 的 法 规 中 推导 出 工程 要 求 。Shinn 解释 :“ 要 从 信息 安全 角度 发 握 
HIPAA 的 需求 ， 必 须 浏览 45 CFR Part 160 法 案 ， 并 查看 Part 164 的 A 和 C 分 章 。 不 仅 
如 此 ， 还 需要 继续 阅读 到 “技术 保障 和 审计 控制 ”。 en 十 么 : 
确定 要 跟踪 和 审计 哪些 与 患者 医疗 信息 相关 的 活动 , 记录 和 实施 这 些 控 制 点 , 最终 审查 
并 收集 所 需 的 信息 。” 


Shinn 接着 说 :“ 关 于 如 何 满足 这 些 需求 ， 要 在 合 规 和 监管 人 员 以 及 安全 和 DevOps 
团队 之 间 进行 讨论 ， 特 别 是 关于 怎样 预防 、 检 测 和 纠正 问题 。 有 些 需求 可 以 通过 版 本 控 
制 中 的 配置 设置 来 满足 ， 其 他 需求 则 要 用 监控 进行 控制 。 


Shinn 举例 :“ 我 们 可 以 选择 AWS CloudWatch 实现 其 中 一 个 控制 手段 ， 并 能 通过 命 
令 行 测试 控制 是 否 工作 正常 。 此 外 ， 我 们 需要 展示 日 志 的 存储 位 置 一 一 理想 情况 下 ， 将 
所 有 控制 状态 都 推送 进 日 志 记 录 和 系统， 在 此 将 审计 证 据 与 实际 控制 要 求 链接 起 来 。” 


为 了 解决 这 个 问题 , “DevOps 审计 防御 工具 包 ” 完 整 描 述 了 一 个 虚拟 组 织 (《 凤 风 
项 目 》 中 的 无 极限 零 部 件 公司 ) 的 合 规 性 和 审计 流程 。 它 首先 描述 了 其 组 织 目标 、 业 务 
流程 、 最 高 风险 、 由 此 产生 的 控制 环境 ， 以 及 管理 层 如 何 成 功 证 明了 控制 确实 存在 和 有 
效 。 它 还 提出 了 一 系列 审计 缺陷 ， 以 及 如 何 克 服 。 


该 文档 描述 了 如 何在 部 署 流水 线 以 缓解 所 述 风险 , 并 且 提 供 了 控制 证 明和 
控制 工件 的 示例 以 证 明 控 制 的 有 效 性 。 它 旨 在 指导 所 有 控制 目标 ， 包 括 对 准确 财务 报告 
的 支持 、 a A 
SEC Reg-SCI 法 规 )、 合 同 义 务 (例如 ，PCIDSS、DOD DISA ), 以 及 有 效 和 高 效 的 运作 。 


* 案例 研究 * 
依靠 生产 遥测 的 ATM 系统 


Mary Smith( 化 名 ) 领 导 了 美国 一 家 大 型 金融 服务 组 织 的 消费 者 银行 业务 的 DevOps 
转型 。 她 指出 , 信息 安全 人 员 、 审 计 人 员 和 监管 机 构 通常 过 度 依赖 代码 审查 来 检测 坎 诈 。 
相反 ， 除 了 自动 化 测试 、 代 码 评审 和 审批 ， 他 们 还 应 该 依靠 生产 监控 控制 ， 从 而 有 效 降 
低 错 误 和 欺诈 带 来 的 风险 。 





228 第 23 章 保护 部 署 流水 线 





她 说 : 


许多 年 前 , 我 们 的 一 个 开发 人 员 在 部 署 到 自动 柜员 机 ( ATM ) 的 代码 中 埋 
藏 了 一 个 后 门 。 该 开发 人 员 能 够 在 特定 时 间 将 ATM 设置 为 维护 模式 ， 以 便 从 
ATM 中 取 走 现金 。 我 们 很 快 检测 到 了 这 个 欺诈 行为 ， 但 并 不 是 通过 代码 评审 。 
当 犯 罪 者 有 足够 的 手段 、 动 机 和 机 会 时 ， 杜 别 这 些 类 型 的 后 门 很 难 ， 甚 至 是 不 
可 能 的 。 

然而 , 我 们 在 定期 的 运 维 审查 会 议 上 迅速 发 现 了 欺诈 ,因为 有 人 注意 到 一 
个 城市 中 的 ATM 在 非 计 划 时 间 里 进入 了 维护 模式 。 我 们 甚至 在 预定 的 现金 审 
计 之 前 就 发 现 了 欺诈 ， 也 就 是 将 ATM 中 的 现金 数量 与 授权 交易 对 账 之 前 。 
在 本 案例 研究 中 ,尽管 开发 与 运 维 之 间 的 职责 分 离 ， 而 且 有 变更 批准 流程 ， 可 是 协 

诈 仍 然 发 生 了 ， 不 过 通过 有 效 的 生产 适 测 迅速 发 现 和 纠正 了 这 个 问题 。 


23.6 小结 


本 章 讨 论 了 让 每 个 人 都 承担 信息 安全 责任 的 实践 , 将 所 有 的 信息 安全 目标 都 纳入 价值 流 中 每 
个 人 的 日 常 工作 。 这 样 显著 提高 了 控制 的 有 效 性 ,能 更 好 地 预防 安全 漏洞 ,更 快 地 检测 到 安全 漏 
洞 并 从 中 恢复 。 此 外 ， 还 大 大 减少 了 准备 和 通过 合 规 审计 的 工作 时 间 。 

















23.7 ”第 六 部 分 总 结 


第 六 部 分 探讨 了 如 何 将 DevOps 原则 应 用 于 信息 安全 ， 帮 助 我 们 实现 目标 ， 并 确保 安全 是 所 
有 人 日 常 工作 的 一 部 分 。 更 好 的 安全 性 确保 了 我 们 能 防护 数据 、 理 智 地 对 待 数据 ,能 在 安全 问题 
酿 成 灾难 以 前 恢复 。 最 重要 的 是 ， 我 们 可 以 让 系统 和 数据 的 安全 性 变 得 比 以 往 更 好 。 




















我 们 已 经 
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对 DevOps 的 原理 和 技术 实践 进行 了 详细 的 探讨 。 在 这 个 安全 漏洞 频 发 、 交 付 周期 

















不 断 缩短 、 技 术 大 规模 转型 的 时 代 ， 在 技术 领导 者 们 要 同时 应 对 安全 性 、 可 靠 性 和 灵活 性 的 挑战 
时 ，DevOps 应 运 而 生 。 希 望 本 书 能 对 读者 深入 理解 问题 并 找到 解决 问题 的 方案 有 所 帮助 。 


正如 本 书 
新 产品 和 功能 


一 直 强 调 的 , 若 管理 不 当 , 开发 人 员 与 运 维 人 员 之 间 存 在 的 冲突 会 日 益 亚 化， 导致 
上 线 时 间 长 ,质量 不 如 人 意 ， 损耗 增加 ,技术 债 越 积 越 多 ， 生产力 低下 ,员工 的 不 











满 和 倦 念 情绪 也 会 越 来 越 严重 。 


DevOps 的 原则 和 模式 能 够 化 解 这 个 核心 冲突 。 在 阅读 完 本 书后 ,希望 读者 能 明白 DevOps 


转型 如 何 能 创 











建 学 习 型 组 织 ， 如 何 加 快 流程 、 打 造 一 流 可 靠 性 和 安全 性 的 产品 ， 如 何 提高 企业 竞 


争 力 和 员工 满意 度 。 


DevOps 的 践 行 需要 新 的 企业 文化 和 管理 规范 ， 同 时 会 变革 技术 实践 和 架构 。 路 部 门 协作 至 














关 重 要 , 包括 
销 人 员 在 内 ， 
自主 地 开发 和 





最 大 程度 地 提 


本 书 的 目 
卓越 成 果 。 同 








管理 层 、 产 品 管理 部 门 、 开 发 团队 、 质 量 保证 团队 、IT 运 维 、 信 息 安全 甚至 市 场 营 














所 有 部 门 通力 协作 ， 才 能 有 效 构建 出 一 个 安全 的 工作 系统 ， 从 而 帮助 小 团队 快速 、 
验证 , 并 安全 地 部 署 客户 服务 相关 的 代码 ,也 才 有 可 能 有 技术 创新 。 这 种 方式 可 以 
高 开发 人 员 的 生产 力 、 学 习 积 极 性 、 满 意 度 以 及 提高 组 织 启 得 市 场 的 能 力 。 


的 是 充分 展示 DevOps 的 原则 和 实践 ， 计 其 他 组 织 可 以 复制 DevOps 社区 所 取得 的 
时 ,我 们 也 希望 加 速 组 织 应 用 DevOps 的 进程 ， 协 助 他 们 成 功 实 施 DevOps 并 降低 
































DevOps 转型 的 风险 。 


我 们 知道 固步自封 、 不 思 进 取 的 危害 以 及 改变 日 常 工作 习惯 的 不 易 , 也 理解 组 织 引 进 新 工作 


方式 所 带 来 的 
行 方法 取代 。 








风险 和 成 本 。 我 们 也 清楚 ，DevOps 也 只 是 历史 长 河中 的 一 沙 ， 很 快 就 会 被 新 的 流 











但 我 们 坚信 ，DevOps 对 技术 行业 带 来 的 转变 ， 就 如 同 精益 在 20 世纪 80 年 代 对 制造 业 的 变 
革 一 样 。 那 些 拥 抱 DevOps 的 组 织 将 在 市 场 上 赢得 胜利 ， 拒 绝 DevOps 的 组 织 将 为 此 付出 代价 。 
拥抱 DevOps 的 组 织 将 打造 出 充满 激情 并 持续 进步 的 学 习 型 组 织 ， 并 通过 创新 的 方式 表现 得 比 竞 


争 对 手 更 加 出 











色 。 
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因此 ，DevOps 不 仅仅 是 技术 层面 的 当务之急 ， 也 是 组 织 层面 的 迫切 要 务 。 最 关键 的 一 点 ， 
DevOps 普 适 ， 尤 其 适用 于 这 样 的 组 织 : 必须 通过 技术 手段 改进 工作 流程 ， 同 时 保证 产品 的 高 质 
量 、 可 靠 性 和 安全 性 。 


我 们 呼吁 大 家 行动 起 来 : 无 论 你 在 组 织 中 扮演 什么 角色 , 请 即刻 开始 寻找 有 意愿 优化 本 职工 
作 的 同事 。 把 本 书 推荐 给 他 们 ， 和 所 有 志同道合 的 人 结盟 ,要 求 组 织 的 决策 者 支持 这 些 改 进 。 你 
最 好 能 发 起 并 带领 大 家 进行 DevOps 实践 。 


最 后 ,给 阅读 到 最 后 的 读者 一 点 儿 和 福利 ， 与 你 分 享 一 个 秘密 。 在 我 们 研究 的 许多 案例 中 , 在 
取得 突破 性 成 果 的 同时 ,大 部 分 变革 者 都 得 到 了 晋升 。 不 过 ,也 有 这 样 的 情况 : 领导 层 随 后 发 生 
变化 ， 导 致 变革 者 离开 ， 他 们 所 创造 的 变化 也 会 被 组 织 回 滚 。 


不 要 为 此 愤世嫉俗 。 参 与 变革 的 人 都 明白 , 他 们 做 的 事情 当然 可 能 会 失败 , 但 无 论 成 败 如 何 ， 
他 们 总 要 试 坛 。 尝 试 的 最 大 意义 在 于 ， 通 过 实践 鼓舞 他 人 。 不 承担 风险 ， 创 新 是 不 可 能 成 功 的 。 
如 果 你 没有 使 某 些 管理 层 不 安 , 那 证 明 你 可 能 还 不 够 努力 。 不 要 让 组 织 的 免疫 系统 阻止 或 干扰 了 
你 的 愿景 。 正 如 亚马逊 的 前 “灾难 大 师 ”Jesse Robbins 所 说 :“ 做 正确 的 事情 ， 等 着 被 开除 。 

DevOps 会 使 技术 价值 流 里 的 所 有 参与 者 都 受益 匪 浅 ， 无 论 我 们 是 开发 人 员 、 运 维 工程 师 、 
质量 保证 工程 师 、 信 息 安 全 人 员 、 产 品 经 理 或 者 客户 , 它 都 能 够 带 给 我 们 那 种 开发 伟大 产品 而 产 
生 的 快感 。 它 提供 人 性 化 的 工作 条 件 , 让 我 们 有 更 多 时 间 陪 伴 亲 人 。 它 能 使 团队 共同 努力 、 学 习 、 
成 长 、 取 悦 客户 并 使 之 获 益 ， 同 时 帮助 组 织 取得 成 功 。 


我 们 真诚 希望 本 书 可 以 帮助 你 实现 这 些 目标 。 
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附 录 


附录 1 DevOps 的 大 融合 


我 们 认为 DevOps 正在 得 益 于 一 场 令 人 难以 置信 的 管理 实践 大 融合 ， 各 种 实践 相互 促进 和 衔 
接 在 一 起 ， 并 形成 了 一 种 独特 的 实践 集合 ， 它 能 对 组 织 的 软件 开发 转型 和 IT 产品 或 服务 交付 模 
式 的 转型 产生 极 大 的 帮助 。 

John Willis 称 之 为 “DevOps 的 大 融合 ”。 下面 尽量 按时 间 顺 序 介绍 这 次 大 融合 里 的 各 种 元 素 。 
(请 注意 ， 这 里 并 不 详细 介绍 它们 ， 而 只 是 概要 地 介绍 各 种 思维 的 演进 ， 以 及 发 生 在 它们 之 间 的 
难以 置信 的 链接 ， 最 终 导 致 了 DevOps 的 应 运 而 生 。 ) 












































精益 运动 





精益 运动 始 于 20 世纪 80 年 代 , 衍生 自 丰 田 生 产 系统 (TPS )。TPS 包括 价值 流 映 射 、 看 板 和 
全 面 生产 维护 等 。 

精益 的 两 个 主要 原则 是 : (1) 坚信 前 置 时 间 (把 原材料 转换 为 成 品 所 需 的 时 间 ) 是 提升 质量 、 
客户 满意 度 和 员工 幸福 感 的 最 佳 预测 指标 ; (2) 小 批量 尺寸 是 短 前 置 时 间 的 一 个 最 佳 预测 指标 ， 
理论 上 讲 最 理想 的 批量 尺寸 是 “ 单 件 流 ”( 即 “1 x 1” 的 流 ， 库 存 为 1， 批量 尺寸 为 1 )。 


精益 原则 专注 于 为 客户 创造 价值 ,要求 系统 性 思考 ,持之以恒 ,拥抱 科学 思维 , 创建 流 和 拉 
动 (而 不 是 推动 ) 的 模式 ， 从 源头 保证 质量 ， 以 谦逊 为 导向 ， 尊 重 每 一 个 人 。 























































































































敏捷 运动 

台 于 2001 年 。“ 敏 捷 宣言 ”是 由 17 位 软件 开发 领域 的 顶尖 大 师 编写 的 ， 目 的 是 掀起 一 场 推 
广 轻 量 级 软件 开发 方法 (如 DP 和 DSDM- 动 态 系统 开发 方法 ) 的 运动 ， 用 敏捷 替代 瀑布 式 等 重 
量 级 软件 开发 过 程 以 及 替代 统一 软件 开发 过 程 (RUP ) 这 样 的 方法 论 。 

它 的 一 个 关键 原则 是 :“ 频 繁 地 交付 可 工作 的 软件 ， 交 付 周 期 可 以 是 数 星期 也 可 以 是 数 月 ， 
推荐 更 短 的 周期 。” 另 外 还 有 两 个 原则 ， 一 个 是 小 型 的 、 自 我 激励 的 团队 应 工作 在 高 度 信任 的 模 
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式 下 ， 一 个 强调 小 批量 尺寸 。 敏 捷 还 和 一 系列 的 工具 和 实践 相关 ， 如 Scrum 、 站 会 等 。 





Velocity 大 会 运动 

从 2007 年 开始 ， 由 Steve Souders 、John Allspaw 和 Jesse Robbins 等 人 组 织 并 发 起 了 Velocity 
大 会 , 目的 是 为 IT 运 维和 网 站 性 能 调 优 人 员 提 供 一 个 聚首 的 机 会 。 在 2009 年 的 Velocity 会 议 上 ， 
John Allspaw 和 Paul Hammond 做 了 主题 为 “每 日 10 次 部 署 : Dev 和 Ops 在 Flickr 的 协作 ”的 
演讲 。 





敏捷 基础 设施 运动 

在 2008 年 的 多 伦 多 敏捷 会 议 上 ，Patrick Debois 和 Andrew Schafer 主持 了 一 场 名 为 “羽毛 之 
鸟 ” 专 题 研讨 ,探讨 如 何 将 敏捷 原则 应 用 于 基础 设施 ， 而 不 仅 限于 应 用 程序 代码 。 他 们 很 快 得 到 
了 一 些 志同道合 的 思考 者 的 响应 , 其 中 也 包括 John Willis。 后 来 , Patrick 又 深 受 John 和 Hammond 
的 “每 日 10 次 部 署 : Dev 和 Ops 在 Flickr 的 协作 ”演讲 的 鼓舞 ， 于 2009 年 在 比利时 的 根 特 市 ， 
举办 了 第 一 次 DevOpsDays 活动 ， 创 造 了 “DevOps” 这 个 词 。 




















持续 交付 运动 


在 持续 构建 、 测 试 和 集成 等 开发 实践 的 基础 上 ，Jez Humble 和 David Farley 发 展 出 了 持续 交 
付 的 理念 ， 其 中 包括 确保 将 代码 和 基础 设施 始终 处 于 可 部 署 状 态 的 “部 署 流水 线 ”， 并 且 确 保 所 
有 提交 到 主干 的 代码 都 能 安全 地 部 署 到 生产 环境 里 。 


这 个 想法 最 早 是 在 2006 年 的 敏捷 大 会 上 公布 于 众 的 ，Tim Fitz 在 他 的 一 篇 名 为 “持续 部 署 ” 
的 博文 中 完善 了 这 个 概念 。 








丰田 套路 运动 


在 2009 年 ，Mike Rother 编写 了 《丰田 套路 : 转变 我 们 对 领导 力 与 管理 的 认 知 》 一 书 ， 书 中 
描述 了 他 对 丰田 20 年 研究 的 收获 。 这 期 间 他 理解 了 丰田 生产 系统 (TPS ) 的 因果 机 制 并 对 其 作 
了 综述 。 书 中 介绍 了 “丰田 成 功 背 后 隐形 的 管理 例 程 和 思维 模式 及 其 不 断 改进 和 调整 …… 以 及 其 
他 公司 如 何在 他 们 的 组 织 中 践 行 类 似 的 例 程 和 思维 模式 ”。 

他 的 结论 是 ， 精 益 社 区 错失 了 与 所 谓 的 “改善 套路 ”相关 的 最 重要 的 实践 。 他 解释 说 ， 每 
个 组 织 都 有 工作 日 程 , 丰田 成 功 的 关键 因素 是 改进 了 工作 习惯 , 并 将 其 植 和 人 到 组 织 里 每 个 人 的 日 
常 工 作 中 。 丰 田 套 路 建立 了 一 种 迭代 、 增 量 、 科 学 的 解决 问题 的 方法 ， 追 求 共同 的 企业 目标 。 
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精益 创业 运动 


在 2011 年 ，Eric Ries 编写 了 《精益 创业 : 新 创 企 业 的 成 长 思维 》 一 书 ， 总 结 了 他 在 一 家 硅 
谷 创业 公司 IMVU 的 经 验 教 训 。 这 本 书 的 核心 思想 基于 Steve Blank 的 《四 步 创 业 法 》 一 书 和 持 
续 部 署 技术 。Eric Ries 还 给 出 了 相关 实践 并 定义 了 一 些 术语 ， 包 括 最 小 化 可 行 产品 (MVP )、 构 
建 -度量 -学 习 的 循环 ， 以 及 很 多 持续 部 署 的 技术 模式 。 






































精益 用 户 体验 运动 

在 2013 年 ，Jeff Gothelf 撰 写 了 《精益 设计 : 设计 团队 如 何 改善 用 户 体验 》 一 书 ， 其 中 描写 
了 如 何 改进 “模糊 前 端 ” ， 并 解释 了 产品 经 理 如 何在 投入 时 间 和 资源 以 前 制定 业务 假设 实验 ， 籍 
此 获取 关于 业务 的 信心 。 有 了 精益 设计 ， 全 面 优 化 业务 假设 、 功 能 开发 、 测 试 、 部 署 和 为 客户 发 
布 服务 的 工具 就 齐 了 。 








Rugged Computing 运动 











2011 年 ，Joshua Corman、David Rice 和 Jeff Williams 深入 考察 了 软件 开发 周期 晚期 进行 应 用 
程序 和 环境 安全 加 固 的 无 效 性 。 根据 考察 结果 ， 他 们 提出 了 名 为 Rugged Computing 的 哲学 ， 旨 
在 构建 包含 稳定 性 、 可 扩展 性 、 可 用 性 、 生 存 性 、 可 持续 性 、 安 全 性 、 可 支持 性 、 可 管理 性 和 防 
御 性 等 的 非 功能 性 需求 框架 。 

DevOps 强调 高 频率 发 布 , 可 能 会 给 质量 保证 ( QA ) 和 信息 安全 ( Infosec ) 带 来 巨大 的 压力 ， 
因为 当 部 署 频率 从 每 月 或 每 季度 一 次 提升 到 每 天 数 百 或 数 千 次 时 , 信息 安全 或 质量 保证 的 工作 周 
期 就 不 再 是 两 周一 次 了 。Rugged Computing 运动 假设 当前 的 多 数 信息 安全 防护 措施 是 没 用 的 。 






























































附录 2 约束 理论 和 核心 的 长 期 冲突 


约束 理论 主要 讨论 核心 冲突 云 (通常 称 为 “C””) 的 作用 。 图 A-1 是 开 的 冲突 云 示意 图 。 


< 
目标 的 贡献 
~ 


图 A-1 每 个 开 组 织 都 面临 的 核心 的 长 期 冲突 








提供 稳定 可 确保 成 功 产 出 





预测 的 IT 生 工作 / 
产 环境 谨慎 的 变更 
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在 20 世纪 80 年 代 , 在 制造 业 里 核心 的 长 期 冲突 非常 普遍 。 所 有 工厂 经 理 都 有 两 项 重要 的 业 
务 目标 : 提高 销量 ， 降 低 成 本 。 问题 是 ， 为 了 保持 销量 ， 库 存 就 要 增加 ， 以 确保 始终 能 满足 客 
户 需求 。 


然而 , 要 降低 成 本 ,就 应 该 减少 库存 ， 以 确保 资金 没有 占用 在 在 制品 上 。 在 制品 指 按 客户 订 
单 生产 的 但 还 不 能 立即 发 货 的 产品 。 

应 用 精益 原则 能 解决 以 上 冲突 ,例如 减 小 批量 尺寸 , 减少 在 制品 数量 ,以 及 缩短 和 放大 反馈 
回路 。 这样 工 厂 的 生产 率 、 产 品质 量 和 客户 满意 度 都 会 得 到 显著 提高 。 


DevOps 工作 模式 背后 的 原理 与 制造 业 变 革 的 原则 是 相同 的 ， 那 就 是 优化 IT 价值 流 , 将 业务 
需求 转化 成 为 向 客户 提供 价值 的 能 力 和 服务 。 
























































附录 3 ”恶性 循环 列表 
《 风 凰 项 目 》 中 描绘 的 恶性 循环 如 表 A-1 所 示 。 











表 A-1 恶性 循环 




































































IT 运 维 人员 的 感受 开发 人 员 的 感受 
脆弱 的 应 用 程序 容易 出 现 故 障 脆弱 的 应 用 程序 容易 出 现 故障 
需要 很 长 的 时 间 来 判断 哪个 字 节 被 改 了 更 紧急 、 工 期 更 紧张 的 工作 列 入 日 程 
销售 人 员 负 责 检查 性 控制 更 多 不 安全 的 代码 发 布 
恢复 服务 所 需 的 时 间 过 长 发 布 的 版 本 越 多 部 署 就 越 混 乱 
紧急 救火 和 计划 外 工作 太 多 发 布 周期 延长 导致 部 署 成 本 增加 
紧急 安全 性 返工 和 补救 失败 的 大 规模 部 署 更 难 判别 具体 问题 所 在 
计划 内 工作 无 法 完成 大 多 数 资深 的 开 运 维 人 员 都 没有 时 间 解 决 底层 流程 问题 
客户 感到 诅 丧 并 流失 有 助 于 提升 业务 的 工作 越 积 越 多 
市 场 份额 下 降 开 运 维 、 开 发 、 产 品 设计 之 间 的 关系 越 来 越 紧张 





企业 没有 部 现 给 华尔街 的 承诺 
业务 部 门 对 华尔街 做 出 更 多 承诺 


附录 4” 交接 和 队列 的 危害 


队列 等 待 时 间 会 随 着 交接 次 数 的 增加 而 延长 , 因为 队列 是 由 于 交接 而 产生 的 。 图 A-2 显示 了 
一 个 工作 中 心 资源 的 繁忙 程度 与 等 待 时 间 的 关系 。 渐 变 的 曲线 显示 了 为 什么 “一 个 30 分 钟 的 简 
单 变更 ”通常 却 需 要 几 周 的 时 间 才 能 完成 。 某 些 工程 师 和 项 目 组 车 过 于 繁忙 , 通常 就 会 变 成 瓶颈 。 
当 一 个 项 目 组 满 负荷 时 , 任何 需要 它 完 成 的 任务 都 会 被 淖 没 在 队列 里 ,如果 没 有 人 进行 催促 或 提 
高 优先 级 ， 该 任务 将 永远 也 不 能 完成 。 
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等 待 时 间 = 〈 忙 碌 时 间 百 分 比 〉/ (空闲 时 间 百 分 比 ) 
1001 
90]| 
80 
70 | 
局 60] 
时 50]| 
对 -e- 等 待 时 间 
30 4 
20 | 
10 | 
0 J 
0 10 20 30 4 5 6 7 8 90 100 
资源 繁忙 百分比 
图 A-2 ”队列 长 度 和 等 待 时 间 与 利用 百分比 的 关系 ( 引 自 《凤凰 项 目 》 一 书 ) 
在 图 A-2 中 , 横 坐 标 表 示 在 一 个 项 目 组 里 某 特定 资源 的 繁忙 百分比 , 纵 坐 标 是 等 待 时 间 (或 














者 更 准确 地 说 是 队列 长 度 )。 曲 线 的 形状 表明 ， 在 资源 利用 率 超 过 80% 以 后 ， 等 待 时 间 会 急速 攀 


升 到 顶点 。 


《凤凰 项 目 》 一 书 描写 了 比尔 和 他 的 团队 是 如 何 意 识 到 这 个 关系 对 他 们 向 项 目 管理 部 门 承诺 

















的 交付 周 


蝇 


下 


期 产生 了 灾难 性 的 影响 的 。 


我 告诉 他 们 ， 埃 瑞 克 在 MRP-8 对 我 说 过 ， 等 待 时 间 取决 于 资源 使 用 率 。“ 等 
“忙碌 时 间 百 分 比 ” 
是 50%， 那 么 它 的 空闲 时 间 也 是 50%。 等 待 时 间 就 是 50% 除 以 50%， 也 就 是 一 个 时 hi 
单位 。 就 说 是 一 小 时 吧 。 所 以 平均 来 说 , 一 个 任务 在 处 理 前 的 排队 等 待 时 间 为 一 小 时 


“如 果 一 个 资源 90% 的 时 间 是 忙碌 的 ， 等 待 时 间 就 是 “90% 除 以 10%”， 也 就 是 9 小 


待 时 i 
除 以 “ 空 闪 时 间 百 分 比 ”。 也 就 是 说 ， 如 果 一 个 资源 的 忙碌 时 ij 





时 。 换 言 之 ,我 们 的 任务 排队 等 待 的 时 间 ， 将 是 资源 有 50% 空 闲 时 的 9 倍 。” 
我 得 出 结论 :“ 因 此 ， 对 这 个 凤凰 任务 来 说 ， 假 设 我 们 有 7 个 交接 步骤 ， 而 且 每 一 


个 资源 都 有 90% 的 时 间 是 忙碌 的 ， 那 么 任务 排队 等 待 的 总 时 间 就 是 9 小 时 乘 以 7 
只 是 排队 等 待 的 时 间 就 要 63 小 时 ? ” 韦 斯 仍然 一 副 难 以 置信 的 表情 ,“ 这 


“什么 ? 
不 可 能 1” 


帕 蒂 似 笑 非 笑 地 说 :“ 哦 ， 是 啊 。 因 为 输入 字符 只 需要 30 秒 ， 对 不 对 ? ” 


附录 5 工业 安全 误区 
对 复杂 系统 几 十 年 的 研究 表明 , 人 们 的 处 理 策 略 都 是 基于 几 个 误区 。 在 Denis Besnard 和 Erik 
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Hollnagel 的 “工业 安全 误区 ”一 文中 ， 他 们 是 这 么 总 结 的 。 


口 误区 1: 人 为 错误 是 意外 和 事故 最 主要 且 唯 一 的 根源 。 

口 误区 2: 如 果 人 遵守 了 既定 的 规程 ， 那 么 系统 就 是 安全 的 。 

口 误区 3: 安全 性 可 以 通过 设置 权限 和 防护 来 提升 。 保 护 层次 越 多 ， 安 全 性 就 越 高 。 
口 误区 4: 事故 发 生 的 根本 原因 (“真相 ”) 可 以 通过 事故 分 析 来 确定 。 

口 误区 5: 事故 调查 就 是 识别 事实 和 原因 之 间 的 逻辑 和 关联 关系 。 

口 误区 6: 安全 性 总 是 优先 级 最 高 的 ， 不 容 降低 。 


误区 与 真相 之 间 的 区 别 如 表 A-2 所 示 。 















































表 A-2 神话 与 真相 

















误 、 区 真 相 
人 为 错误 被 视 为 事故 原因 人 为 错误 被 视 为 组 织 内 更 深层 次 的 系统 性 漏洞 的 后 果 
陈述 “人 们 当时 应 该 怎么 做 ”就 是 对 失败 的 最 好 总 结 “人 们 当时 应 该 怎么 做 ”并 不 能 解释 “为 什么 他 们 觉得 当 
时 那么 做 是 合理 的 ” 
告诉 人 们 更 加 小 心 就 可 以 消除 问题 只 有 不 断 寻 找 组 织 的 漏洞 ， 才 能 提高 安全 性 














附录 6 丰田 安 灯 强 


许多 人 问 ， 如 果 安 灯 强 每 天 被 拉 了 5000 次 ,那么 生产 工作 怎么 会 完成 呢 ? 确切 地 说 ， 并 不 
是 每 个 安 灯 绳 都 会 导致 整个 装配 线 的 停止 。 相 反 ， 当 安 灯 拉 强 被 拉 下 时 , 监督 那个 工作 中 心 的 团 
队 领 导 有 50 秒 时 间 解 决 这 个 问题 。 如 有 果 在 50 秒 内 问题 没 解决 , 没有 装配 完毕 的 车 辆 就 将 越过 地 
板 上 画 的 那 条 线 ， 然 后 这 条 装配 线 才 会 停止 ( 见 图 A-3 )。 





























安 灯 














工作 中 心 3 


臂 长 车 所 





图 A-3 丰田 安 灯 绳 
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附录 7 软件 包产 品 


为 了 将 复杂 的 软件 包产 品 ( COTS , commercial off-the-shelf software; 如 SAP 、IBM WebSphere、 
Oracle WebLogic ) 也 纳入 版 本 控制 , 我 们 可 能 不 得 不 去 掉 | 
装 工具 。 为 此 需要 了 解 厂商 提供 的 工具 的 用 途 , 还 需要 一 个 干净 的 服务 器 安装 图 片 ， 需 要 比 对 文 


件 系 统 ， 并 将 新 增 的 文件 纳入 版 本 探 人 














商 提 供 的 图 形 化 的 点 击 操作 模式 的 安 





前 。 将 那些 与 安装 环境 无 关 的 文件 都 放 在 同一 个 位 置 (“ 基 


础 安装 ”)， 将 环境 有 关 的 文件 放 入 各 自 的 目录 (“测试 ”或 者 “生产 ”)。 通 过 这 种 方式 ， 软 件 安 


装 操 作 就 变 成 了 版 本 控制 的 操 


我 们 可 能 还 要 转换 应 
应 用 配置 转换 为 XML 文件 ，XML 文 伯 
































附录 8 事后 分 析 会 议 
事后 分 析 会 议 的 议程 样 例如 下 。 
D 首先 由 会 议 主持 或 协调 人 做 会 议 启动 发 言 ， 强调 这 个 会 议 是 对 事 不 对 人 的 事后 分 析 会 议 ， 





我 们 的 重点 不 是 发 生 过 的 引 











作 ， 可 视 化 效果 和 可 重复 性 都 更 好 了 ， 速 度 也 提升 了 。 


用 配置 设置 ,把 它们 也 纳入 版 本 控制 。 例如， 可 以 将 存储 在 数据 库 里 的 
F 也 可 以 转换 为 应 用 配置 。 











了 ， 也 不 会 去 推测 “本 来 会 怎样 ”或 “本 来 有 可 能 怎样 "。 协 调 


人 可 以 宣读 来 自 Retrospective.com 网 站 的 “回顾 基本 指导 原则 ”。 


此 外 ,协调 人 将 提醒 大 家 ， 得 出 的 任何 对 策 都 一 定 要 分 配 到 具体 的 人 ， 如 果 纠 正 措施 不 
能 成 为 这 个 会 议 后 的 首要 任务 , 那么 这 就 不 是 纠正 措施 。( 这 是 为 了 防止 会 议 上 讨论 了 一 




















系列 好 想法 ， 可 是 永远 也 不 付 诸 行动 。) 

















口 在 会 议 期 间 要 对 奸 








有 政 完 整 的 时 间 表 达成 一 致 的 认识 。 
通过 什么 途径 发 现 的 问题 ( 例如， 自动 监测 、 手 动 检测 、 客 户 反 馈 )， 在 什么 时 间 服 务 得 





包括 在 什么 时 间 、 是 谁 发 现 的 问题 ， 


到 了 彻底 的 恢复 ， 等 等 。 我 们 还 将 在 事故 发 生 期 间 所 有 的 外 部 讨论 归纳 到 时 间 表 中 。 
提 到 “时 间 表 ”， 大 家 可 能 会 理解 为 调查 问题 并 解决 


的 系统 中 ， 导 致 事故 发 生 的 事件 可 能 会 有 许多 ， 并 

















问题 的 步 又 。 实 际 上 ， 特 别 是 在 复杂 





且 将 会 采取 多 种 解决 问题 的 故障 排查 


方案 和 措施 。 在 这 项 活动 中 ,我们 试图 记录 所 有 的 事件 和 所 有 参与 者 的 观点 ， 并 尽 可 能 





地 建立 出 各 种 可 外 
事后 分 析 团 队 将 列 出 所 有 造成 事故 的 人 为 因素 和 技术 因素 ， 并 将 其 归 类 ， 如 “设计 决策 ” 


口 





的 因果 关系 的 假设 。 








“修复 ” “发 现 的 问题 ”等 。 团 队 将 使 用 头脑 风暴 和 “十 万 个 怎么 样 ”方法 ， 对 他 们 认为 
特别 重要 的 诱因 进行 深入 挖掘 ， 从 而 探索 更 深层 次 的 诱因 。 所 有 的 观点 都 应 当 得 到 包容 








和 尊重 ， 不 允许 争论 或 否认 其 他 人 已 经 确认 的 诱因 。 





会 议 协调 人 特别 需要 注意 的 是 ， 必 


须 确保 做 这 项 活动 的 时 间 充 足 ， 而 且 团 队 不 应 尝试 去 异 存 同 ， 不 要 试图 确定 出 一 个 或 几 





个 “根本 原因 ”。 
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口 与 会 人 员 要 就 会 后 首要 任务 清单 达成 一 致意 见 。 清 单 所 列 内 容 需 要 集思广益 ， 并 选择 能 
防止 问题 复发 的 任务 ， 或 者 能 更 快 发 现 问题 并 复原 的 任务 。 列 表 还 可 以 包括 改进 系统 的 

其 他 方式 。 

我 们 的 目标 是 确定 实现 预期 结果 的 最 小 增 量 步骤， 而 不 是 “大 爆炸 ” 式 的 变更 ， 因 为 那 

不 仅 需要 更 长 的 实施 时 间 ， 还 会 推迟 改进 。 


我 们 还 会 生成 一 份 单独 的 列表 , 列 出 那些 优先 级 较 低 的 任务 , 并 为 其 分 配 一 个 负责 人 。 如 
果 将 来 发 生 类 似 的 问题 ， 就 可 以 基于 这 些 任务 制定 对 策 。 


口 与 会 人 员 还 要 讨论 事故 的 衡量 指标 和 事故 对 组 织造 成 的 影响 。 例 如 ， 我 们 可 以 使 用 下 列 
指标 来 定量 描述 事故 。 
a 事件 严重 性 : 这 个 问题 的 严重 程度 。 严 重 性 会 直接 影响 服务 和 客户 。 
和 总 停机 时 间 : 服务 完全 不 可 用 的 时 间 。 
a 检测 时 间 : 发 现 问题 所 需 的 时 间 。 
昌 解决 时 间 : 知道 问题 以 后 恢复 服务 所 用 时 间 。 
Etsy 公司 的 Bethany Macri 是 这 么 总 结 的 :“ 在 事故 分 析 中 对 事 不 对 人 并 不 意味 着 没有 人 承担 
责任 , 而 是 想 了 解 在 什么 情况 下 允许 人 员 执 行 变更 , 或 者 谁 引入 的 问题 。 没有 责难 , 就 没有 顾虑 ; 
没有 了 顾虑 ， 就 可 以 坦诚 相 待 。 



























































附录 9 猴 猴 军团 

在 2011 年 AWS 的 美 东 服 务 中 断 事故 之 后 ，Netflix 曾 就 如 何 自动 处 理 系统 故障 讨论 过 多 次 。 
一 个 名 为 “ 揭 乱 猴 ” 的 服务 就 是 这 些 讨论 的 结果 。 

此 后 ， 捣 乱 猴 逐渐 演变 成 了 一 套 全 系列 的 工具 ， 内 部 称 之 为 “Netflix 猿 猴 军 团 "， 用 来 模拟 
灾难 的 不 同 程度 。 
口 捣乱 大 猩猩 : 模拟 整个 AWS 可 用 区 域 (ZA ) 的 故障 。 
口 捣乱 金刚 : 模拟 整个 AWS 地 区 (Region ) 的 故障 ， 如 北美 或 欧洲 。 
猿 猴 军团 的 其 他 成 员 如 下 。 


口 延迟 猴子 : 在 其 RESTful 客户 端 服务 器 的 通信 层 人 为 引入 的 延迟 或 停机 ， 以 模拟 服务 降 
级 ， 并 确保 相关 服务 正常 工作 。 

口 一 致 性 猴子 : 查找 并 关闭 不 符合 最 佳 实践 的 AWS 实例 ( 例如 ， 实 例 不 属于 任何 自动 伸缩 
组 ， 或 服务 目录 中 没有 值班 工程 师 的 电子 邮件 地 址 )。 
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动 关闭 实例 。 











口 安全 猴子 : 一 致 性 猴子 的 升级 版 ， 找 到 并 终止 有 安全 违规 或 漏洞 的 实例 
组 配置 错误 。 








附录 10 上线 时 间 透 明 化 
Lenny Rachitsky 这 么 陈述 他 所 谓 的 “上 线 时 间 透 明 化 ”的 优势 。 


口 医生 猴子 : 检查 每 个 运行 的 实例 ， 找 到 不 健康 的 实例 ， 如 果 负 责 人 没有 及 时 修复 ， 就 主 


口 看 门 猴子 : 确保 他 们 的 云 环境 没有 混乱 和 浪费 ， 搜 索 未 使 用 的 资源 并 处 理 。 


， 例 如 AWS 安全 





(1) 支持 的 成 本 下 降 。 因 为 用 户 能 够 自己 识别 系统 里 的 问题 ， 无 需 打 电话 或 发 电子 邮件 给 文 
持 部 门 。 用 户 不 再 需要 猜测 是 本 地 问题 还 是 全 局 性 问题 , 并 且 可 以 在 跟 运 维 抱怨 之 前 更 快速 地 定 

















位 问题 。 


























(2) 在 宕 机 期 间 能 与 客户 更 良性 沟通 。 利 用 互联 网 传播 的 优势 而 不 是 电子 由 

















b 件 、 电 话 这 种 一 





对 一 性 方式 ， 能 实现 更 好 的 沟通 效果 。 在 客户 沟通 上 省 事 了 ,就 有 更 多 时 间 来 解决 问题 。 
(3) 让 客户 在 发 生 宕 机 事故 时 有 明确 的 可 寻求 帮助 的 途径 ,不 必 再 四 处 搜索 论坛 、Twitter 或 











博客 。 





(4) 信任 是 所 有 SaaS 应 用 成 功 的 基石 。 客 户 将 自己 的 业务 和 生计 都 押宝 在 了 你 的 服务 或 平台 
上 。 现 有 和 潜在 的 客户 都 需要 信任 服务 。 他 们 想 确 保 当 服 务 出 现 问题 时 自己 也 有 知情 权 。 让 他 们 

















实时 了 解 意外 事件 是 建立 信任 的 最 佳 方法 ， 向 客户 隐瞒 实情 不 再 可 取 。 














(5) 认真 负责 的 SaaS 提供 商 早晚 都 会 提供 公开 的 健康 度 仪表 板 ， 这 只 是 时 间 问 题 ， 因 为 用 户 





有 这 样 的 需求 。 


参考 资源 


口 在 《凤凰 项 目 : 一 个 开 运 维 的 传奇 故事 》 这 本 书 的 前 半 部 分 中 , 讨论 了 很 多 开 组 织 面临 

的 常见 问题 。 作 者 是 Gene Kim 、Kevin Behr 和 George Spafford。 

口 Paul ONeil 所 做 的 一 个 演讲 ， 关 于 他 在 美 铝 担任 CEO 的 体会 ， 其 中 有 一 段 介绍 他 所 参与 
的 一 个 某 美 铝 工 厂 青 年 工人 遇害 事故 调查 。 视 频 地 址 : https://www.youtube.com/watch? 
v=tC2ucDs XJY。 

口 关于 价值 流 映射 的 更 详细 信息 可 以 参考 Value Stream Mapping: How to Visualize Work and 

Align Leadership for Organizational Transformation 一 书 ,作者 是 Karen Martin 和 Mike Osterling。 

口 更 多 有 关 ORM 的 信息 ， 请 访问 Stack Overflow 网 站 : http://stackoverflow.com/questions/ 

1279613/what-is-an-orm-and-where-can-i-learn-more-about-it。 

口 敏捷 开发 方法 以 及 如 何 将 它们 应 用 到 开 运 维 工 作 中 ， 可 以 在 Agile Admin 博客 中 找到 |: 

http://theagileadmin.com/2011/02/21/scrum-for-operations-what-is-scrum/。 

口 更 多 关于 快速 构建 架构 技术 的 信息 ,请 见 Daniel Worthington Bodart 的 博客 文章 “Crazy Fast 
Build Times (or When 10 Seconds Starts to Make You Nervous)”: http://dan.bodar.com/2012/ 
02/28/crazy-fast-build-times-or-when-10-seconds-starts-to-make-you-nervous/。 

口 更 多 关于 Facebook 性 能 测试 的 细节 以 及 一 些 相 关 的 发 布 流程 细节 信息 ， 请 参考 Chuck 
Rossi 的 名 为 “The Facebook Release Process” 的 演讲 : http://www.infoq.com/presentations/ 
Facebook-Release-Process。 

口 更 多 黑 启 动 形 式 可 以 在 《 云 系 统管 理 ， 大 规模 分 布 式 系统 设计 与 运营 》 一 书 中 找到 ， 作 

者 是 Thomas A. Limoncelli、Strata R. Chalup 和 Christina J. Hogan。 

口 这 里 有 一 个 关于 特性 开关 的 精彩 技术 讨论 : http:/martinfowler.comyarticles/feature-toggles. 

html。 

口 关于 发 布 的 更 详细 讨论 , 请 参考 以 下 图 书 :《 云 系统 管理 : 大 规模 分 布 式 系统 设计 与 运营 》 
(作者 Thomas A. Limoncelli、 Strata R. Chalup 和 Christina J. Hogan )《 持 续 交 付 : 发 布 可 
靠 软 件 的 系统 方法 》( 作者 Jez Humble 和 David Farley )《 发 布 ! 软件 的 设计 与 部 署 》( 作 
者 Michael Nygard )。 

口 有关 熔断 模式 的 介绍 可 以 参考 : http://martinfowler.com/bliki/CircuitBreaker.html。 

口 了 解 更 多 延迟 的 成 本 , 请 参考 The Principles of Product Development Flow: Second Generation 

Lean Product Development 一 书 ， 作 者 Donald G. Reinertsen。 
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口 关于 预防 Amazon S3 服务 故障 的 更 深入 讨论 : https://qconsf.com/sf2010/dl/qcon-sanfran- 

2009/slides/Jason McHugh AmazonS3ArchitectingForResiliencyInTheFaceOfFailures.pdf。 

口 关于 开展 用 户 研 究 的 探讨 ， 参 见 《 精 益 设 计 : 设计 团队 如 何 改善 用 户 体验 》 一 书 ， 作 者 

Jeff Gothelf 和 Josh Seiden。 

口 Which Test Won 是 一 个 真实 A/B 测试 案例 的 网 站 ， 上 面 有 数 百 个 测试 案例 ， 让 浏览 者 猜 
测 哪个 测试 表现 更 好 。 它 的 主旨 是 提倡 做 实际 测试 ， 赁 猜测 是 无 法 得 出 正确 结论 的 。 网 
址 : http://whichtestwon.com/。 

口 架构 模式 清单 可 在 Michael Nygard 所 著 的 《发 布 ! 软件 的 设计 与 部 署 》 一 书 中 找到 。 

口 Chef 发 布 了 一 个 事后 回顾 会 议 的 例子 , 文字 版 见 https:/www.chefio/blog/2014/08/14/cookbook- 

dependency-api-postmortem/， 视 频 版 见 https:/www.youtube.com/watch?v=RmilTn5oWfI。 

口 DevOpsDays 活动 的 日 程 更 新 可 以 在 DevOpsDays 的 网 站 上 看 到 : http://www.devopsdays.org/。 
关于 组 织 一 次 DevOpsDays 活动 的 指导 信息 ， 请 见 网 页 “DevOpsDay Organizing Guide”: 
http:/www.devopsdays.org/pages/organizing/。 

口 更 多 管理 密码 的 工具 请 见 Noah Kantrowitz 的 博文 “Secrets Management and Chef”: 

https://coderanger.net/chef-secrets/。 

口 James Wickett 和 Gareth Rushgrove 已 经 将 他 们 所 有 安全 加 固 流水 线 的 示例 代码 放 到 了 GitHub 

网 站 上 : https://github.com/secure-pipeline。 

口 美国 国家 漏洞 数据 网 站 和 XML 数据 访问 点 : https:/nvd.nist.gov/。 

口 Puppet、ThoughtWorks 的 GoCD 和 Mingle ( 一 个 项 目 管 理应 用 ) 融合 的 具体 场景 参见 
Puppet Lab 的 博客 文章 :https:/puppetlabs.comyblog/a-deployment-pipeline-for-infrastructure。 
作者 是 Andrew Cunningham 和 Andrew Myers， 由 Jez Humble 编辑 。 

口 关于 准备 和 通过 合 规 审计 的 更 多 讨论 , 见 Jason Chan 在 2015 年 题 为 “SEC310: Splitting the 
Check on Compliance and Security: Keeping Developers and Auditors Happy in the Cloud” 的 
演讲 : https:Wwww.youtube.com/watch?v=Io00 K4v12Y&feature=youtu.be。 

口 Jez Humble 和 David Farley 的 关于 Oracle WebLogic 应 用 配置 转型 的 故事 参见 他 们 的 《 持 
续 交 付 : 发 布 可 靠 软 件 的 系统 方法 》 关 于 将 微 雇 用 描述 成 更 通用 的 流程 的 文档 位 于 : 
http://notafactoryanymore.com/2015/10/19/devops-for-systems-of-record-a-new-hope-preview- 
of-does-talk/。 

口 DevOps 的 一 个 可 维护 性 需求 的 清单 实例 , 见 网 页 : http://blog.devopsguys.com/2013/12/19/ 

the-top-ten-devops-operational-requirements/。 
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Ben Rockwood ( Chef )、 Andrew Shafer (Pivotal )、 Randy Shoup ( Stitch Fix )、James Turnbull 
(Kickstarter )、James Wickett ( Signal Sciences )。 


感谢 以 下 人 员 与 我 们 分 享 他 们 的 DevOps 经 验 : Justin Arbuckle、David Ashman 、Charlie Betz、 
Mike Bland、Toufic Boubez 博士 、Em Campbell-Pretty 、Jason Chan 、Pete Cheslock 、Ross Clanton 、 


Jonathan Claudius 、 Shawn Davenport、James DeLuccia、Rob England、John Esser、James Fryman 、 
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特别 致谢 : 


文档 第 二 部 分 和 第 三 部 分 中 的 EXIN DevOps ProfessionalrM 基 础 术语 表 和 认证 考试 样题 
分 别 由 以 下 几 位 老师 共同 修订 ， 特 此 声明 ， 以 表 感 谢 。 


以 下 排名 不 分 先后 : 


术语 提交 & 翻 译 : 刘 征 、 张 乐 、 许 峰 、 江 现 
术语 整理 & 修 订 : 户 梦 纯 
考试 大 纲 & 细 则 修订 : 卢 梦 纯 





样题 审 校 : 刘 征 、 张 乐 、 许 峰 、 汗 焉 
样题 整理 : 卢 梦 纯 





术语 反馈 : 
如 对 术语 翻译 有 修改 建议 , 或 提交 新 的 术语 ， 请 发 送 邮 件 至 info.china@exin.com， 经 
确认 后 ， 将 在 下 一 版 本 更 新 中 进行 修订 。 








版 权 所 有 © 2017 EXIN 
EXIN" 为 EXIN Holding B.V. 的 注册 商标 。 
DevOps Mastern 为 EXIN Holding B.V. 的 注册 商标 。 


在 未 获得 EXIN 的 事先 书面 许可 的 情况 下 ， 不 得 对 本 文件 的 部 分 或 全 部 内 容 进行 发 表 、 转 载 、 
复制 或 存储 在 数据 处 理 系 统 中 ， 不 得 以 打印 、 照 片 打印 、 微 缩 照 片 或 任何 其 他 手段 和 方式 对 其 
进行 传播 。 





Lean IT Foundation" 为 Lean IT Association 的 注册 商标 。 
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第 一 部 分 | EXIN DevOps 认证 体系 概览 
1. DevOps 体系 框架 


EXIN DevOps Qualification Program 


DevOps Master 


Master 


Foundation 
eyes 


---------------------14---------F-------------- 
ES 








图 B-1 ( 另 见 彩 捅 ) 


EXIN DevOps 认证 体系 已 搭建 起 完整 的 框架 。 请 注意 ，EXIN DevOps 认证 体系 中 各 门 认 证 均 无 
前 置 认证 要 求 ， 考 生 可 根据 自身 情况 选择 考取 合适 的 认证 。 








248 ”EXIN DevOps Professional 认证 备考 指南 及 模拟 题 





2. DevOps 系列 认证 模块 
DevOps Master 




















Just-In-TimelIT). Avtonomous (ANDON System) 
Ji-Koutel Kanketsu UKK) 
One piece flow (Leveling woriload) 
Learning organization (Reflection. KAIZEN) 


DevOps Professional 
核心 教材 & 考试 内 容 








" DevOps Adoption 

"The First Way: Row 

mu The Second Way: 
Feedback 


mThe Third Way: 
Continual Learning and 
Experimentation 

m Information Security and 
Change Management 





XIN 
DevOps Pre-Master 
YN | | » Agile Scrum Foundation 


» LITA Lean IT Foundation 


» ITSM Foundation 





图 人 | 。 TMap Testing Engineer 
EXIN 


图 B-2 ( 另 见 彩 捅 ) 
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第 二 部 分 | EXIN DevOps Professional 认证 备考 指南 


1. 概述 

EXIN DevOps Professional™ (DEVOPSP.CH) 

概述 

DevOps 不 仅 在 软件 服务 领域 享有 盛名 ， 其 法 则 也 同样 被 应 用 到 与 快速 交付 可 靠 的 产品 和 服务 相 


关 的 所 有 环境 。DevOps 一 方面 促进 敏捷 开发 、 服 务 管理 和 精益 改进 的 协同 作用 ， 男 一 方面 在 持 
续 交 付 流 水 线 中 确保 安全 性 和 保持 控制 ， 以 此 为 整个 组 织 的 成 功 做 出 贡献 。 























本 模块 的 主要 目的 是 测试 考生 是 否 熟悉 DevOps 实践 “三 步 工作 法 ”: 流动 、 反 馈 、 持 续 学 习 和 
实验 。 通 过 学 习 和 考试 ， 考 生 将 理解 这 些 组 织 层 面 和 技术 层面 的 变革 对 其 日 常 工作 的 影响 。 








二 
总 结 


/入 二 
































DevOps 是 “开发 ”和 “ 运 维 ” 这 两 个 词 的 缩写 。DevOps 是 一 套 最 佳 实践 方法 论 ， 旨 在 在 应 用 
和 服务 的 生命 周期 中 促进 开 专业 人 员 ( 开发 人 员 、 运 维 人 员 和 支持 人 员 ) 之 间 的 协作 和 交流 ， 
最 终 实 现 : 

。 持续 集成 一 一 每 天 数 次 将 所 有 开发 工作 副本 并 入 共享 主线 ; 

。 持续 部 署 一 一 持续 发 布 ， 或 尽 可 能 经 常 地 发 布 ; 

。 持续 反馈 一 一 在 生命 周期 的 各 个 阶段 寻求 来 自 利 益 干 系 人 的 反馈 。 








本 认证 涵盖 的 DevOps 实践 源 自 三 步 工作 法 : 

。 第 一 步 是 从 开发 到 运 维 再 到 客户 ， 实 现 从 左 到 右 快 速 流动 ; 

。 第 二 步 是 从 所 有 利益 干系 人 到 价值 流 ， 实 现 从 右 到 左 快速 反馈 ; 
。 第 三 步 是 通过 创建 高 度 信任 的 实验 和 风险 承担 文化 ， 促 进 学 习 。 
此 外 ， 还 涵盖 了 各 个 阶段 至 关 重 要 的 安全 问题 及 在 变更 期 间 保持 合 规 性 。 

















本 认证 的 研发 集结 了 DevOps 工作 领域 的 各 方 专家 协作 完成 。 
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3t 旦 (三 
月 景 信 息 


EXIN DevOps 认证 项 目 : 





三 XIN DevOps MASTER™ 


三 XIN DevOps PROFESSIONAL 


目标 群体 


EXIN DevOps ProfessionalrM 认 证 的 目标 人 群 是 在 DevOps 环境 中 工作 的 所 有 人 员 或 考虑 向 
DevOps 工作 法 过 渡 的 组 织 中 的 所 有 员工 。 








目标 群体 包括 〈 不 限于 ): 
。 软件 和 网 站 开发 人 员 
。 系统 工程 师 

。 DevOps 工程 师 

。 产品 和 服务 负责 人 

。 项 目 经 理 
。 测试 工程 师 

。 IT 服务 管理 操作 和 支持 人 员 
。 流程 经 理 
。 精益 IT 从 业 人 员 

。 Agile Scrum 从 业者 
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认证 要 求 








。 顺利 通过 DevOps ProfessionalrM 考 试 。 
。 建议 预先 了 解 敏 捷 、 精 益 和 /或 IT 服务 管理 ， 例 如 通过 EXIN Agile Scrum Foundation 考试 、 
LITA Lean IT Foundation 考试 ， 或 基于 ISO/EC 20000 的 EXIN IT Service Management Foundation 




















考试 。 
布 鲁 姆 级 别 





EXIN DevOps ProfessionalrM 认 证 根据 布 鲁 姆 分 类 学 修订 版 对 考生 进行 布 鲁 姆 2 级 和 3 级 测试 。 
。 布 鲁 姆 2 级 : 理解 一 一 记忆 (1 级 ) 之 上 的 步骤 。 理 解 表明 考生 能 够 理解 呈现 的 内 容 ， 并 能 
够 评估 如 何 将 学 习 资料 应 用 到 个 人 所 在 的 环境 中 。 


这 类 题目 则 在 证 明 考生 能 够 整 天 











。 布 鲁 姆 3 级 : 应 用 一 一 表明 考生 有 能 力 在 与 学 习 环 境 不 同 的 背景 
这 类 题目 旨 在 证 明 考 生 能 够 以 不 同 的 方式 或 新 的 方式 应 用 所 掌握 的 知识 、 实 例 、 方 法 和 规则 ， 
在 新 的 情况 下 解决 问题 。 这 类 题目 通常 包含 一 个 简短 的 场景 。 











下 使 用 所 学 信 























EE、 对 比 、 说 明 并 选择 有 关 事 实 和 想法 的 正确 描述 。 


自 


心 \o 





计算 机 考试 或 笔 答 考试 ， 单 选 题 


考试 细节 
考试 类 型 
题目 数量 40 
通过 分 数 65% 
是 否 开卷 考试 : 否 
是 否 允许 携带 电子 设备 /辅助 设备 : 否 
考试 时 间 : 90 分 钟 


EXIN 的 考试 规则 和 规定 适 月 





日 于 此 门 考试 。 
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音 训 | 
培训 时 长 


建议 本 培训 课程 的 培训 时 长 为 16 小 时 ， 该 时 长 包括 学 员 分 组 、 备 考 和 短暂 休息 。 该 时 长 不 包括 
家 庭 作业 、 考 试 和 午餐 休息 时 间 。 














建议 个 人 学 习 量 


60 小时， 根据 现 有 知识 的 掌握 情况 可 能 有 所 不 同 。 





培训 机 构 





可 通过 www.exin.com 查找 该 认证 的 授权 培训 机 构 。 
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2. 考试 要 求 和 规范 


| 考试 规范 


1. DevOps 应 用 
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考试 规范 
1. DevOps 应 用 12.5% 
1.1 DevOps 的 基本 概念 2.5% 
考生 能 够 …… 
说 明 DevOps 的 基本 概念 ， 如 持续 交付 、 敏 捷 基 础 架构 、Kata 、 在 制品 、 技 术 债 
务 、 前 置 时 间 。 
1.2 三 步 工 作法 的 原则 3.75% 
考生 能 够 …… 
1.2.1 区 分 流动 、 反 馈 及 持续 学 习 和 实验 的 原则 。 
1.2.2 说 明 交 互 系 统 (SoE ) 和 记录 系统 ( SoR ) 与 DevOps 之 间 的 关系 的 区 别 。 
1.3 组 织 6.25% 
考生 能 够 …… 
1.3.1 说 明 DevOps 角色 如 何 为 了 增加 业务 价值 而 协作 。 
1.3.2 说 明 I 型 、T 型 、E 型 与 DevOps 之 间 的 关系 的 区 别 。 
1.3.3 说 明 如 何 将 运 维 与 日 常 开 发 工作 相 结合 。 
2. 第 一 步 : 流动 25% 
2.1 部 署 流 水 线 12.5% 
考生 能 
2.1.1 选择 解决 部 署 流水 线 问题 的 方法 ， 如 基础 设施 即 代码 、 容 器 。 
2.1.2 选择 优化 价值 流 的 最 佳 解决 方案 。 
2.1.3 评估 共享 版 本 控制 库 的 完整 性 。 
2.1.4 调整 完成 的 定义 (DoD )， 以 反映 DevOps 原则 。 
2.1.5 说 明 如 何 将 工具 用 于 环境 构建 和 配置 自动 化 。 
2.2 自动 化 测试 5% 
考生 能 够 …… 
2.2.1 说 明 非 理想 测试 金字 塔 模型 和 理想 测试 金字 塔 模型 之 间 的 区 别 。 
2.2.2 选择 测试 驱动 开发 在 流动 中 的 使 用 目的 。 
2.3 持续 集成 5% 


考生 能 


2.3.1 选择 最 佳 的 分 支 策 略 。 
2.3.2 说 明 技 术 债务 对 流动 的 影响 。 
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2.3.3 说 明 如 何 消除 技术 债务 。 
2.4 低 风险 发 布 2.5% 
考生 能 够 i 
2.4.1 区 分 不 同 的 发 布 和 部 署 模式 ， 从 而 实现 低 风险 发 布 。 
2.4.2 选择 可 供 使 用 的 合适 的 架构 原型 。 


3. 第 二 步 : 反馈 30% 
3.1 遥测 7.5% 
考生 能 够 …… 


3.1.1 描述 遥测 如 何 促进 价值 流 的 优化 。 
3.1.2 描述 监控 框架 组 件 。 
3.1.3 说 明 自 助 使 用 遥测 的 附加 值 。 
3.2 反馈 10% 
考生 能 够 人 
3.2.1 使 用 前 滚 和 回 滚 方法 解决 部 署 问题 。 
3.2.2 变更 发 布 指导 要 求 清单 ， 使 其 与 DevOps 指导 相符 。 
3.2.3 使 用 投产 就 绪 评 审 ( LRR ) 及 交接 就 绪 评审 (HRR ) 执行 安全 检查 。 
3.2.4 说 明 如 何 将 用 户 体验 (UX ) 设计 用 作 反 馈 机 制 。 
3.3 假设 驱动 开发 和 A/B 测试 5% 
考生 能 A 
3.3.1 说 明 如 何 将 A/B 测试 与 发 布 和 特性 测试 相 结 合 。 
3.3.2 说 明 假 设 驱 动 开发 如 何 促 进 预 期 结果 的 交付 。 
3.4 评审 和 协调 7.5% 

































































































































































3.4.1 检查 拉动 请 求 流程 的 有 效 性 。 
3.4.2 说 明 评审 方法 、 同 行 评审 、 观 察 者 评审 、 结 对 编程 、 和 工具 辅助 评审 。 
3.4.3 根据 特定 情况 选择 最 合适 的 评审 方法 。 















































4. 第 三 步 : 持续 学 习 和 实验 20% 
4.1 学 习 10% 
考生 能 够 ……. 





4.1.1 区 分 猿 猴 军团 中 不 同 种 类 的 猴子 ， 以 改进 学 习 方式 。 
4.1.2 召开 免责 事后 分 析 会 议 。 
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4.1.3 说 明 如 何 通过 在 生产 环境 中 众人 故障 来 产生 恢复 能 力 。 
4.1.4 说 明 何 时 使 用 游戏 日 。 

4.2 发 现 10% 
考生 能 够 ……… 
4.2.1 描述 如 何 使 用 ( 成文 的 ) 非 功能 性 需求 (NFR ) 进行 运 维 设计 。 
4.2.2 说 明 如 何 将 可 重复 使 用 的 运 维 用 户 故 事 垦 入 开发 之 中 。 
4.2.3 说 明 哪 些 对 和 象 应 存储 在 单一 共享 源 代码 存储 库 中 。 
4.2.4 说 明 如 何 将 局 部 发 现 转化 成 整体 改进 成 果 。 































































































5. 信息 安全 与 变更 管理 12.5% 
5.1 信息 安全 7.5% 
考生 能 i 








5.1.1 说 明 如 何 整 合 预防 性 安全 控制 措施 。 
5.1.2 说 明 如 何在 部 署 流水 线 中 整合 安全 措施 。 
5.1.3 说 明 如 何 使 用 遥测 增强 安全 。 

5.2 变更 管理 5% 
考生 能 PR 
5.2.1 说 明 如 何在 变更 期 间 保 持 安 全 。 
5.2.2 说 明 如 何在 变更 期 间 保 持 合 规 性 。 
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3. 基本 概念 列表 


本 场 包 含 考生 应 熟知 的 术语 和 缩写 。 


请 注意 ， 单 靠 这 些 术语 并 不 能 满足 考试 要 求 。 考 生 必 须 了 解 这 些 概念 ， 并 能 


(DOP & Handbook Glossary) 









































































































































英文 中 文 

A/B Testing A/B 测试 
Acceptance Stage 验收 阶段 
Acceptance Test-Driven Development (ATDD) 验收 测试 驱动 开发 
Acceptance Test 验收 测试 

Accident 事故 

Affinity 亲 和 

Agile 敏捷 

Andon Cord 安 灯 绳 

Anomaly Detection Technique 异常 探测 技术 
Antifragility 抗 脆弱 性 
Application Deployment 应 用 部 署 

Artifact Management 构件 制品 库 管 理 
Artifact 制品 

Automated Test 自动 化 测试 
Automation 自动 化 

Backlog 待 办 事项 列表 

Bad Apple Theory 坏 苹果 理论 

Bad Path 坏 路 径 

Batch Size 批 次 尺寸 、 批 量 大 小 
Blame 指责 

Blameless Post Mortem 不 指责 的 事后 分 析 
Blamelessness 免责 

Blue-Green Deployment 蓝 绿 部 署 
Blue-Green Deployment Pattern 蓝 绿 部 署 模 式 
Branching Strategy 分 支 策略 
Brownfield 棕 地 

Build 构建 

Business Value 业务 价值 

Canary Release 金 丝 竹 发 布 
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英文 He 

Canary Release Pattern 金 丝 泡 发 布 模式 
Card 卡片 

Change Category 变更 类 别 

Change Schedule 变更 计划 

Cloud Computing 云 计 算 

Cloud Configuration File 云 配置 文件 
Cluster Imnmune System Release Pattern 集群 免疫 系统 发 布 模式 
Code Branch 代码 分 支 

Code Review Form 代码 审查 表 
Codified Nfr 成 文 的 非 功能 需求 
Collaboration 协作 

Commit Stage 提交 阶段 






































Commit Code 提交 代码 
Compliance Requirement 合 规 性 要 求 
Compliance Checking 合 规 性 检查 
Compliancy Officer 合 规 检测 官 
Configuration Management 配置 管理 
Container 容器 
Continuous Deployment 持续 部 署 





Continuous Integration 


持续 集成 (CI) 





Continuous Delivery 





持续 交付 ( CD ) 










































































Conways Law 康 威 定律 
Cycle Time 周期 时 间 
Defect Tracking 缺陷 跟踪 
Definition Of Done (DoD) 完成 的 定义 
Dev Ritual 开发 惯例 
Developer 开发 人 员 
Development 开发 

Devops Transformation DevOps 转型 
Downstream/Upstream 下 游 / 上 游 
Downwards Spiral 恶性 循环 
E-Mail Pass-Around 电子 邮件 轮 查 
Expand/Contract Pattern 扩张 /收缩 模式 
Exploratory Test 探索 性 测试 
Fast Feedback 快速 反馈 
Feature 特性 
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( 续 ) 

英文 中 文 
Feature Flag 特性 标志 
Feature Toggle 特性 开关 
Feedback/Feedback Loop 反馈 /反馈 回路 
Feedforward/Feedforward Loop 前 馈 / 前 馈 回 路 
Flow 流动 
Gated Commit 门 控 提 交 
Gaussian Distribution 高 斯 分 布 
Green Build 绿色 构建 
Greenfield 绿地 
Handoff 交接 
Hand-Off Readiness Review 交接 就 绪 评 审 
Happy Path 愉快 路 径 
Hypothesis-Driven Development 假设 驱动 开发 
Incident 事件 
Information Radiator 言 息 辐射 器 
Infosec 言 息 安全 
Infrastructure Automation 基础 架构 自动 化 
Infrastructure As Code 基础 架构 即 代码 
Integration Tests 集成 测试 
I-Shaped, T-Shaped, E-Shaped I 型 、T 型 、E 型 
Iteration 迭代 
Itsm (It Service Management) IT 服务 管理 
Ji-Kotei-Kanketsu (JKK) 质量 检查 ( JKK ) 
Just Culture 公正 文化 
Just-In-Time (JIT) 准时 制 
Kaizen (In Lean) 改善 
Kaizen Blitz (Or Improvement Blitz) 改善 闪电 战 
Kanban 看 板 
Kata Kata 
Large Batch Size Merge 大 批量 合并 
Latent Defect 潜在 缺陷 
Lauching Guidance 发 布 指导 
Launch Readiness Review 投产 就 绪 评审 
Lead Time 前 置 时 间 
Lean 精益 
Learning Culture 学 习 文化 
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结 





























< 的 
英文 中 文 
Logging Level 日 志 级 别 
Loosely Coupled Architecture 松 耦 合 架 构 
Micro-Service 微服 务 
Minimum Viable Product 最 小 化 可 行 产 品 
Monitoring Framework 监控 框架 
Monolithic Application 单 体 应 用 
Monolytics 单 体 应 用 
MTTR 平均 恢复 时 间 








Non-Functional Requirement (NFR) 








Non-Functional Requirement (NFR) Testing 


非 功能 需求 测试 





(Non) Ideal Testing Pyramid 





( 非 ) 理想 测试 金字 塔 模型 









































































































































One-Piece-Flow 单 件 流 
Operations 运 维 
Operations Story 运 维 故事 

Ops Liaison 运 维 联络 人 
Organisational Typology Model 组 织 结 构 模 型 
Organization Archetype 组 织 原型 
Organizational Learning 组 织 级 学 习 
Over-The-Shoulder 观察 者 评审 
Package 包 

Pair Programming 结对 编程 
Peer Review 同行 评审 

Pilot 试点 

Pipeline 流水 线 
Plan-Do-Check-Act Cycle (PDCA Cycle) 计划 -实施 -检查 -改进 循环 ( 戴 明 环 ) 
Post-Mortem 事后 分 析 
Process Time 处 理 时 间 
Product Owner 产品 负责 人 
Pull Request Process 拉动 请 求 流程 
QA 质量 保证 
Reduce Batch Size 降低 批 次 尺寸 
Reduce Number Of Handoffs 减少 交接 次 数 
Regression Test 回归 测试 
Release Branch 发 布 分 支 
Release Manager 发 布 经 理 
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( 续 ) 
英文 中 文 
Release Pattern 发 布 模式 
Retrospective 回顾 
Rhythm 节奏 
Roll-Back 回 滚 
Sad Path 不 愉快 路 径 
Safety Culture 本 
Safety Conditions 全 条 件 
Scaling we 
Scrum Scrum 
Scrum Master Scrum Master 
Security Testing 安全 测试 
Self Service Capability 自 服务 能 
Service Deployment 服务 部 署 
Service Level Agreement (SLA) 服务 级 别 协议 (SLA ) 
Shared Goal 共同 目标 
Shared Operations Team (SOT) 共享 运 维 团队 
Shared Version Control 共享 版 本 控制 
Single Repository 单一 存储 库 
Smoke Testing 冒 烟 测 试 
Sprint 冲刺 
Staging Staging 
Staging Environments, SIT 准 生 产 环境 
Stakeholder 利益 干系 人 
Standard Deviation 标准 差 
Standard Operations 标准 运 维 
Static Code Analysis 静态 代码 分 析 
Swarm 聚集 、 聚 焦 、 会 诊 、 围 观 (动词 ) 
Swarming 聚集 
System Of Engagement (SOE) 交互 系统 
System Of Records (SOR) 记录 系统 
Technical Debt 技术 债务 
Technology Adaption Curve 技术 适应 曲线 
Technology Executive 技术 主管 
Telemetry 遥测 
Test Coverage Analysis 测试 覆盖 率 分 析 
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结 














< 的 
英文 中 区 
Test Story 测试 故事 
Test-Driven Development 测试 驱动 开发 
The Downward Spiral - TDS 下 行 螺旋 
The Agile Manifesto 敏捷 宣言 
The Lean Movement 精益 运动 





The Simian Army: 
e Chaos Gorilla 


猿 猴 军 团 (可靠 怕 





。 捣乱 大 猩猩 

















监控 服务 ): 















































































































































e Chaos Kong 。 捣乱 金刚 

e。 Conformity Monkey 。 一 致 性 猴子 
e。 Doctor Monkey 。 医生 猴子 

e Janitor Monkey 。 看 门 猴子 

。 Latency Monkey 。 延迟 猴子 

® Security Monkey 。 安全 猴子 
The Three Ways 三 步 工 作法 
Theory Of Constraints 约束 理论 
Ticketing System 工 单 系统 
Tightly-Coupled 紧 耦 合 
Tool-Assisted Review 工具 辅助 评审 
Tool 工具 

Toyota Production System (TPS) 丰田 生产 系统 
Toyoto Kata 丰田 套路 
Transformation Team 转型 团队 
Trunk 主干 

User Story 户 故 事 
Value Stream Mapping 价值 流 映 射 
Value Stream 价值 流 
Velocity 速率 

Version Control 版 本 控制 
Virtualized Environment 虚拟 化 环境 
Visible 可 视 的 
Visualisation 可 视 化 

Waste 浪费 

Waste Reduction 减少 浪费 
Waterfall 瀑布 式 

WIP (Work In Progress / Process) 在 制品 

WIP Limit 在 制品 限制 














Work Center 





工作 中 心 
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文献 
必 选 教材 


A The DevOps Handbook: How to Create World-Class Agility, Reliability, and Security in Technology 
Organizations 
作者 : Gene Kim, Jez Humble, Patrick Debois, John Willis 

国际 标准 书号 : ISBN-10: 1942788002; ISBN-13: 978-1942788003 

出 版 社 : IT Revolution Press; 第 1 版 (2016 年 ) 





( 即 本 书 主体 《DevOps 实践 指南 》) 
可 选 教材 


B DevOps Best Practices 

作者 : Bart de Best 
国际 标准 书号 : ISBN-13: 978-94-92618-07-8 
出 版 社 : Leonon Media ( 2017 年 ) 





C ThePhoenix Project: A Novel About IT1, DevOps, and Helping Your Business Win 
作者 : Gene Kim, Kevin Behr, George Spafford 

国际 标准 书号 : ISBN-10: 0988262576; ISBN-13: 978-0988262577 

出 版 社 : IT Revolution Press (2013 年 1 月 10 日 ) 








该 文献 目前 已 有 中 文 版 《凤凰 项 目 : 一 个 开 运 维 的 传奇 故事 》 
译 者 : 成 小 留 
书号 : ISBN 9787-7-115-40365-0 


D 其 他 来 源 : 
http://newrelic.com/devops 


http://devops.com/ 


备注 : 可 选 教材 仅 作为 参考 和 其 他 深度 学 习 使 用 。 
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文献 者 点 分 布 和 矩阵 

考试 要 求 考试 规范 文献 文献 参考 章节 

1 1.1 前 言 ， 第 一 部 分 介绍 ， 第 1、21 章 
1.2 第 2、3、4、5 章 
1.3 A 第 2、6、7、8 章 

2 2.1 A 第 5、6、7、8、9、11 章 
2.2 A 第 10 章 
2.3 A 第 11、21、22 章 
2.4 A 第 12、23 章 

3 3.1 A 第 14、15 章 
3.2 A 第 16 章 
3.3 A 第 17 章 
3.4 A 第 18 章 

4 4.1 A 第 19 章 、 附 录 9 
4.2 第 20 章 

S S.1 第 22 章 
52 第 23 章 
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第 三 部 分 | EXIN DevOps Professional 认证 样题 & 解 析 


1. 考试 说 明 


本 试卷 基于 EXIN DevOps Professional。EXIN 考试 准则 适用 于 该 考试 。 




















本 试卷 由 40 道 单项 选择 题 组 成 。 每 道 选 择 题 有 多 个 选项 ， 但 这 些 选 项 中 只 有 一 个 是 正确 答案 。 



































本 试卷 的 总 分 是 40 分 ， 每 道 题 的 分 数 是 1 分 。 每 答对 一 题 获得 1 分 。 如 果 考 生 获 得 的 总 分 数 为 
26 分 或 以 上 ， 证 明 通 过 本 考试 。 


考试 时 间 为 90 分 钟 。 


祝 你 好 运 ! 
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2. 样题 


1/40 
敏捷 宣言 的 原则 是 什么 ? 








A) 创建 持续 和 动态 学 习 的 文化 。 

B) 在 工作 系统 中 生成 反馈 和 前 人 馈 回 路 。 

C) 高 频次 交付 可 工作 的 软件 ， 间 隔 从 几 星 期 到 两 三 个 月 不 等 。 

D) 使 工作 可 见 ， 缩 小 批 次 尺寸 并 缩短 工作 间隔 ， 构 建 质量 ， 从 而 增强 流动 。 














2/40 
“将 日 常 工作 的 改进 制度 化 ”属于 三 步 工作 法 中 的 哪 一 步 ? 


A) 持续 学 习 和 实验 
B) 反馈 
C) 流动 


3/40 
交互 系统 ( SoE ) 和 记录 系统 ( SoR ) 在 变更 速度 上 有 何 区 别 ? 








A) 一 般 而 言 ，SoE 和 SoR 的 变更 速度 同步 。 

B) 一 般 而 言 ，SoE 的 变更 速度 显著 高 于 SoR。 

C) 一 般 而 言 ，SoE 的 变更 速度 显著 低 于 SoR。 

D) SoE 和 SoR 间 变 更 速度 的 关系 取决 于 不 同 的 信息 系统 。 





4140 
让 开发 和 运 维 使 用 共享 工具 的 益处 是 什么 ? 























A) 生成 统一 的 竺 办 事项 列表 ， 便 于 每 个 人 从 全 局 角度 优先 考虑 改进 项 目 。 

B) 开发 人 员 能 够 得 到 关于 应 用 程序 在 生产 环境 中 运行 表现 的 反馈 ， 其 中 包括 生产 中 断 时 的 修复 。 
C) 使 团队 能 够 在 正常 的 营业 时 间 内 进行 部 署 并 进行 简单 的 转换 。 

D) 将 运 维 的 知识 转换 为 自动 化 代码 ， 这 样 更 加 可 靠 ， 并 且 可 以 被 广泛 地 重复 使 用 。 
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a 


/40 


将 运 维 能 力 更 好 地 赋 能 给 开发 团队 ， 可 以 产生 更 多 以 


以 下 哪 一 项 是 实现 这 一 点 最 有 效 的 方法 ? 


A) 为 运 维 团 队 派 遗 开 发 人 员 联 络 员 

B) 创建 基础 架构 自 服务 

C) 将 运 维 团 队 外 包 

D) 培训 开发 人 员 ， 使 其 能 够 开展 运 维 工作 





6/40 


由 于 运 维 工程 师 延 误 了 新 环境 的 生成 ， 银 行 需要 更 长 的 时 间 将 新 的 或 发 生变 化 的 产品 投入 市 


以 下 哪 一 项 是 关于 自动 生成 环境 的 正确 说 法 ? 


A) 自动 生成 的 环境 可 用 于 所 有 环境 。 











场 为 导向 的 成 果 ， 提 高 效率 和 生产 力 。 








B) 由 于 安全 限制 ， 自 动 生成 的 环境 可 用 于 生产 环境 以 外 的 所 有 环境 。 
DevOps 要 求 运 维 人 员 评 审 。 

















C) 基于 四 眼 原 则 ， 在 生产 中 使 用 自动 生成 的 环境 时 ， 





D) 基于 四 眼 原 则 ， 在 生产 中 使 用 自动 生成 的 环境 时 ， 


7/40 
价值 流 图 过 程 块 应 包含 哪 种 价值 ? 


A) 应 用 程序 遥测 

B) 完整 和 准确 的 百分比 
C) 团队 速率 

D) 在 制品 (WIP) 


Dr 





8/40 





DevOps 要 求 运 维 人 员 的 了 


为 了 尽量 降低 DevOps 中 的 业务 风险 ， 下 面 哪 一 项 是 版 本 控制 的 主要 目标 ? 














A) 配置 偏离 理想 状态 时 ， 保 证 警报 功能 
B) 保证 重新 生成 先前 的 最 佳 环境 状态 的 功能 














F 动 同意 。 





ts 


入 。 
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C) 保证 重新 生成 生产 环境 以 及 构建 流程 的 功能 
D) 保证 不 同 的 开发 团队 共享 源 代码 的 功能 

















9/40 
所 有 IT 团队 成 员 集 结 到 一 起 ， 共 同 评审 应 进行 的 变更 ， 以 便 进一步 实施 DevOps。 团 队 成 员 需 
要 就 与 DevOps 原则 相符 的 完成 的 定义 ( DoD ) 达成 一 致 。 











以 下 哪 一 项 完成 的 定义 ( DoD ) 适用 于 DevOps? 





A) 代码 已 并 入 主 分 支 ， 并 通过 了 自动 化 单元 测试 。 
B) 代码 在 开发 人 员 的 电脑 中 如 期 运行 ， 已 通过 单元 测试 。 
C) 代码 在 类 似 生产 的 环境 中 运行 ， 已 通过 用 户 验 收 测试 。 




















10/40 
以 下 哪 一 项 是 实现 环境 搭建 和 环境 配置 自动 化 的 最 有 效 工具 ? 














A) 提供 开发 、 测 试 或 验收 环境 的 工 单 系统 

B) 将 生产 环境 设置 复制 到 开发 、 测 试 和 验收 环境 的 工具 
C) (为 保持 环境 同步 ) 各 环境 下 手动 分 发 和 维护 的 配置 文件 
D) 便于 程序 员 自 行 变更 环境 的 基础 设施 即 代 码 配置 管理 工具 




















11/40 
自动 化 测试 套件 的 特定 设计 目标 是 尽 可 能 早 地 在 测试 中 找到 错误 。 理 想 自 动 化 测试 金字 塔 模型 
显示 了 须 执行 测试 的 正确 顺序 。 

















需 首 先 执行 哪 一 个 测试 ? 


A) 自动 化 API 测 试 
B) 自动 化 组 件 测试 
C) 自动 化 集成 测试 
D) 自动 化 单元 测试 
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12 / 40 
DevOps 团队 希望 通过 测试 驱动 开发 来 提高 速率 。 
下 面 哪 一 项 是 正确 的 操作 顺序 ? 




















A) 重 构 
书写 测试 用 例 
书写 功能 代码 

B) 书写 功能 代码 
书写 测试 用 例 
重 构 

C) 书写 测试 用 例 
书写 功能 代码 
重 构 





13 / 40 
一 家 保险 公司 聘请 DevOps 专家 为 其 DevOps 团队 的 分 支 策 略 选择 提供 建议 。DevOps 专家 评估 
了 两 种 策略 : 

















1. 优化 个 人 生产 力 
2. 优化 团队 生产 力 


关于 这 两 种 策略 ， 下 面 哪 一 种 说 法 是 正确 的 ? 




















A) 两 种 策略 产生 的 合并 工作 量 是 相等 的 。 
B) 策略 1 产生 的 合并 工作 量 高 于 策略 2。 
C) 策略 2 产生 的 合并 工作 量 高 于 策略 1。 








14/40 
一 家 零售 公司 彻底 从 瀑布 式 开 发 流程 转向 DevOps。 短 时 间 内 作出 了 很 多 选择 。 这 就 产生 了 技术 
债务 。 例 如 ， 产 品 上 市 时 间 (time to market ) 显著 增加 。 但 也 有 消除 诸多 延误 的 方法 。 

















价值 流 图 显示 20% 的 冲刺 时 间 都 花 在 移植 代码 上 ， 所 有 代码 均 在 单独 的 代码 分 支 上 实现 维护 。 


以 下 哪 种 技术 债务 解决 方案 会 实现 更 快 的 流动 ( faster flow ) ? 
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A) 采用 基于 主干 的 开发 

B) 在 开发 人 员工 作 站 复制 测试 故障 
C) 开始 金 丝 汰 发 布 

D) 使 用 更 多 遥测 


Wi 














15/40 
实现 高 生产 力 、 可 测试 性 和 安全 的 架构 的 特征 是 什么 ? 








A) 定义 含糊 的 接口 
B) 紧 耦 合 
C) 定义 明确 的 API 


i 


16/40 
解决 DevOps 问题 的 最 佳 的 遥测 方法 是 什么 ? 








闪 
剖 


E04 


测 工具 非常 重要 ， 重 点 应 为 生产 环境 、 部 署 流水 线 和 预 生 产 环境 。 
测 工具 非常 重要 ， 仪 需 重视 生产 环境 。 
UT 重点 是 重启 成 本 更 低 的 见 余 服务 。 


水 
二 


A) 投 i 
B) 投 ; 
C) 投 i 
D) 投 ; 








沾 





汉 
水 
二 








be 
涪 
十 





沾 
漆 漆 壹 











Ka 


17/40 
在 监控 框架 内 ， 应 从 三 个 层次 收集 数据 。 

















F 面 哪 一 项 不 属于 这 三 层 ? 


A) 应 用 程序 
B) 业务 逻辑 
C) 业务 指标 
D) 运 维系 统 





18/40 
自助 遥测 帮助 下 面 哪 一 种 人 员 实 现 增值 ? 


工具 不 重要 。 重 点 是 应 用 程序 用 户 。 原 因 在 于 用 户 提 供 更 全 面 、 成 本 更 低 的 监控 。 
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A) 仅 开 发 人 员 
B) 仅 开 发 人 员 和 运 维 人 员 
C) 仅 开 发 人 员 、 运 维 人 员 和 利益 干系 人 


D) 开发 人 员 、 运 维 人 员 、 利 益 干系 人 以 及 客户 


19 / 40 
在 兼 具 自动 化 测试 、 快 速 部 署 流程 和 充分 遥测 的 环境 下 ， 下 面 哪 一 种 方法 为 业务 提供 最 多 
DevOps 方向 的 益处 ? 























A) 前 滚 

B) 回 滚 

C) 移 除 有 故障 的 服务 器 
D) 关闭 故障 特性 


WA 


20 / 40 

某 软 件 公 司 编写 了 下 列 发 布 指导 要 求 。 

' 缺陷 计数 和 严重 程度 : 应 用 程序 是 否 按照 设计 要 求 运行 ? 

* 监控 范围 : 发 生 故 障 时 ， 监 控 范 围 是 否 足以 恢复 服务 ? 

* 系统 架构 : 服务 是 否 紧 耦合 ， 足 以 解决 生产 中 的 高 事件 率 ? 

' 传呼 机 警报 类 型 /频率 : 应 用 程序 是 否 在 生产 中 生成 过 量 警 报 ? 












































下 面 哪 一 项 发 布 指导 要 求 不 符合 DevOps 工作 法 ? 





A) 缺陷 计数 和 严重 程度 : 应 用 程序 是 否 确实 按照 设计 要 求 运行 ? 
B) 监控 范围 : 发 生 故障 时 ， 监 控 范 围 是 否 足 以 恢复 服务 ? 

C) 系统 架构 : 服务 是 否 紧 耦 合 ， 足 以 解决 生产 中 的 高 事件 率 ? 
D) 传呼 机 警报 类 型 /频率 : 应 用 程序 是 否 在 生产 中 生成 过 量 警 报 ? 


Am 



































_ 





21/40 
以 下 哪 一 项 是 交接 就 绪 评 审 ( HRR ) | 而 非 投 产 就 绪 评 审 ( LRR )] 的 独 有 特点 ? 





A) HRR 更 严格 ,验收 标准 更 高 。 
B) HRR 由 产品 团队 自行 汇报 。 
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C) HRR 需要 在 新 服务 对 外 发 布 前 签字 。 
D) HRR 需要 在 新 服务 接收 到 真实 生产 流量 前 签字 。 





22 /40 
在 交互 、 用 户 体验 (UX ) 设计 领域 ， 最 强大 的 方法 之 一 是 情景 调查 。 
以 下 哪 一 项 是 关于 情景 调查 最 佳 说 法 ? 

















A) 产品 团队 要 求 用 户 对 团队 对 应 用 程序 演示 做 出 响应 。 

B) 产品 团队 向 用 户 询问 ， 应 用 程序 在 家 中 的 使 用 情况 。 

C) 产品 团队 观察 用 户 在 用 户 的 日 常 使 用 状态 下 ， 使 用 此 应 用 的 行为 。 

D) 在 用 户 验收 测试 期 间 ， 产 品 团队 在 配备 测试 设备 的 专用 房间 内 研究 用 户 行为 。 



































23 / 40 
初创 公司 ABC 在 根据 用 户 期 望 开发 移动 导航 应 用 程序 的 特性 上 面临 严峻 挑战 。 
下 面 哪 一 项 是 确保 UX 移动 导航 应 用 程序 的 特性 与 用 户 期 望 相符 的 最 佳 方法 ? 














在 移动 导航 应 用 程序 中 ， 更 为 全 面 的 开发 足够 多 的 特性 ， 从 而 为 客户 提供 更 高 级 和 更 多 的 选 
择 ， 使 其 通过 更 多 选项 来 自 定义 功能 ， 来 优化 用 户 体验 。 

B) 开发 多 个 版 本 的 移动 导航 应 用 程序 ， 随 机 选择 部 分 用 户 ， 展 示 不 同 版 本 的 应 用 , 来 获取 并 对 
比 用 户 体验 。 版 本 分 为 主 控 型 版 本 与 升级 型 版 本 ， 用 户 被 随机 挑选 并 使 用 其 中 一 个 版 本 
修改 移动 导航 应 用 程序 当前 的 UX 特性 ， 以 便 ABC 在 不 牺牲 质量 的 前 提 下 保留 UX 的 核心 
功能 。 

提前 三 周 发 布 移动 导航 应 用 程序 的 一 个 新 特性 ， 从 而 收集 客户 对 此 特性 的 反馈 。 





A 





Saw 












































C 


We 








D 





Mie 


24/40 
开发 团队 可 通过 下 列 哪 种 方法 促进 交付 预期 的 业务 成 果 ? 








A) 认真 开展 大 量 实验 
B) 完整 的 回归 测试 
C) 假设 驱动 开发 
D) SDLC 


et Net 
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ABC 公司 在 系统 “工资 单 应 用 程序 ”上 ， 遇 到 了 代码 变更 的 问题 。 目 前 ， 已 经 执行 的 代码 变更 
未 能 有 完善 的 记录 。 例 如 ， 最 新 的 代码 修复 记录 如 下 : “修复 #1801 工资 单 应 用 程序 问题 。 
公司 注意 到 这 是 描述 不 当 的 “拉动 ”记录 请 求 。 


























恰当 的 “拉动 ”请 求 包括 以 下 内 容 : 
' 为 什么 要 进行 修复 ? 
' 由 谁 进行 修复 ? 























恰当 的 “拉动 ”请 求 必须 包含 哪些 其 他 内 容 ? 


A) 受到 修复 影响 的 业务 部 门 
B) 执行 修复 的 潜在 风险 以 及 对 策 
C) 执行 修复 的 支持 发 布 计划 表 





26/40 
请 考虑 以 下 情境 : 





“在 开发 人 员 查 看 代码 的 同时 ， 同 事 提供 反馈 。” 

















此 处 描述 的 是 哪 一 种 评审 方法 ? 


A) 观察 者 评审 
B) 结对 编程 
C) 同行 评审 

D) 工具 辅助 评审 


Wa 























27/40 
下 面 哪 种 评审 方法 会 直接 减少 编码 错误 ? 








A) 观察 者 评审 
B) 结对 编程 
C) 同行 评审 

D) 工具 辅助 评审 


NS 
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28 / 40 
云 服务 提供 商 希 望 通过 使 用 猿 猴 军 团 〈 可 靠 性 监控 服务 ) 提高 服务 容量 。 








这 种 情况 需要 使 用 下 面 哪 种 猴子 ? 


A) 医生 猴子 (Doctor Monkey ) 
B) 看 门 猴子 (Janitor Monkey ) 
C) 延迟 猴子 (Latency Monkey ) 





29 /40 
ABC 公司 采用 DevOps 工作 法 ， 而 望 推广 开放 、 免 责 的 学 习 环 境 。 近 期 ，ABC 公司 经 历 了 一 次 
重大 的 应 用 程序 故障 ,但 随后 恢复 了 应 用 程序 服务 。 














下 面 哪 一 项 是 不 指责 事后 分 析 会 议 上 必须 完成 的 第 一 要 务 ? 











A) 为 重大 的 应 用 程序 故障 期 间 发 生 的 相关 事件 建立 时 间 表 。 

B) 确定 对 策 ， 防 止 未 来 再 次 发 生 重大 的 应 用 程序 故障 。 

C) 确定 重大 的 应 用 程序 故障 的 根本 原因 ， 提 出 纠正 措施 ， 防 止 未 来 再 次 发 生 重大 的 应 用 程序 故障 。 
D) 在 整个 组 织 都 可 以 接近 的 集中 位 置 公布 事后 回顾 ， 从 重大 的 应 用 程序 故障 中 吸取 教训 。 





























30140 
在 通过 注入 生产 故障 来 产生 恢复 能 力 的 实践 中 ， 要 求 以 下 哪 一 项 ? 











A) 定义 故障 模式 

B) 组 织 事后 回顾 会 议 
C) 培训 人 员 

D) 使 用 测试 环境 








31 / 40 
以 下 哪 一 项 是 执行 演练 日 ( game day ) 计划 的 第 一 个 步 又 ? 














A) 定义 和 执行 演习 
B) 识别 并 解决 问题 ， 接 着 测试 
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C) 计划 断 电 
D) 准备 和 消除 单 点 故障 


32/40 
以 下 哪 一 项 属于 非 功 能 需求 ? 

















A) 在 不 同 的 版 本 间 兼 具 向 前 和 向 后 的 兼容 性 
B) 可 以 生成 被 推迟 的 工作 进度 的 报表 
C) 为 酒店 预订 系统 登记 财务 交易 








33 / 40 
为 了 成 功 创建 可 重复 使 用 的 运 维 用 户 故 事 ， 应 执行 以 下 哪 项 操作 ? 


A) 将 运 维 用 户 故 事 与 相关 的 研发 功能 提升 和 缺陷 关联 起 来 
B) 定义 交接 流程 中 的 操作 ， 接 着 使 用 适当 工具 和 辅助 性 的 工作 流 将 这 些 操 作 自 动 化 
C) 确认 所 有 必要 的 运 维 操 作 和 须 完 成 操作 的 人 员 











34/40 

请 考虑 以 下 要 素 : 

1. 变更 请 求 

2. 部 署 流水 线 工 具 

3. 编译 后 的 可 执行 文件 

4. 操作 指南 和 标准 

其 中 哪 两 个 要 素 一 般 存 储 在 统一 的 共享 源 代码 存储 库 里 ? 


A) 1 和 2 
B) 1 和 4 
C) 2 和 3 
D) 2 和 4 


35/40 
将 局 部 发 现 转化 成 全 局 改进 成 果 的 目标 是 什么 ? 


A) 提升 实践 的 状态 ， 不 只 是 Dev 和 Ops 实践 ， 还 包含 整个 组 织 各 个 方面 的 实践 。 
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B) 使 所 有 新 服务 和 现 有 服务 都 能 够 更 加 方便 地 利用 到 集体 知识 。 
C) 创造 协作 性 更 好 的 企业 文化 以 及 更 安全 、 更 具 弹 性 的 系统 。 
D) 强化 让 每 个 人 都 感受 到 舒适、 可 靠 的 文化 。 








36/40 
开发 人 员 可 以 为 任何 工程 师 提供 便利 ,便于 他 们 在 应 用 程序 和 环境 中 准确 地 生成 并 使 
录 和 加 密 标准 。 
































以 下 哪 一 个 不 是 通过 共享 的 源 代码 存储 库 提供 支持 的 ? 


A) 代码 库 及 其 推荐 的 配置 

B) 部 署 包 

C) 操作 系统 (OS ) 包 和 应 用 的 构建 
D) 加 密 管理 工具 








37/40 
开发 人 员 编 写 了 新 的 代码 时 ， 始 终 伴随 着 非 授权 访问 的 风险 。 


以 下 哪 一 种 控制 措施 不 能 规避 此 风险 ? 








A) 代码 评审 
B) 代码 测试 
C) 有 效 地 打 补丁 
D) 渗透 测试 











38/40 
下 列 哪 种 情况 属于 应 用 程序 的 遥测 ? 





A) 操作 系统 (OS ) 的 变更 
B) 每 日 评审 系统 日 志 

C) 安全 组 的 变更 

D) 用 户 密码 的 重 置 




















< 世 


用 日 志 i 
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39/40 
以 下 哪个 流程 支持 合 规 性 要 求 ， 同 时 也 是 降低 运 维和 安全 风险 的 主要 控制 措施 ? 





A) 变更 管理 流程 
B) 配置 管理 流程 
C) 发 布 和 部 署 管理 流程 
D) 服务 级 别管 理 流程 








40/40 
以 下 哪 一 项 属于 采用 职责 分 离 控制 措施 的 缺点 ? 











A) 职责 分 离 控制 措施 通常 会 减少 工程 师 收 到 的 关于 其 工作 的 反馈 ， 并 使 接收 反馈 的 速度 变 

慢 ， 阻碍 了 开发 工作 。 

B) 职责 分 离 控制 措施 要 求 开发 人 员 向 代码 管理 员 提 交 变 更 内 容 ， 由 代码 管理 员 评 审 、 审 批 变 

更 ， 接 着 再 应 用 到 生产 。 

C) 职责 分 离 控制 措施 要 求 检查 每 一 次 代码 提交 ， 并 进行 代码 评审 ， 从 而 为 工作 质量 提供 必要 
保证 。 但 职责 分 离 控制 措施 会 产生 不 必要 的 工作 。 
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敏捷 宣言 的 原则 是 什么 ? 





A) 创建 持续 和 动态 学 习 的 文化 。 

B) 在 工作 系统 中 生成 反馈 和 前 僻 回 路 。 

C) 高 频次 交付 可 工作 的 软件 ， 间 隔 从 几 星期 到 两 三 个 月 不 等 。 

D) 使 工作 可 见 ， 缩 小 批 次 尺寸 并 缩短 工作 间隔 ， 构 建 质量 ， 从 而 增强 流动 。 














A) 错误 。 这 属于 持续 学 习 和 实验 的 原则 。 

B) 错误 。 这 属于 反馈 原则 。 

C) 正确 。 这 是 敏捷 宣言 的 主要 原则 之 一 。 其 他 原则 对 于 自我 激励 的 小 型 团队 及 在 高 度 信任 的 管 
理 模式 下 工作 必 不 可 少 。( 文 献 : A 第 1 部 分 简介 ) 

D) 错误 。 这 属于 流动 原则 。 




















2/40 
“将 日 常 工作 的 改进 制度 化 ”属于 三 步 工作 法 中 的 哪 一 步 ? 





A) 持续 学 习 和 实验 
B) 反馈 
C) 流动 


— 





A) 正确 。 三 步 工作 法 的 原则 要 求 将 日 常 工作 的 改进 制度 化 ， 将 局 部 学 习 转 换 为 可 供 整个 组 织 使 
用 的 整体 学 习 ， 并 在 日 常 工作 中 持续 注入 压力 。( 文 献 : A 第 4 章 ) 

B) 错误 。“ 将 日 常 工作 的 改进 制度 化 ”属于 持续 学 习 和 实验 原则 。 

C) 错误 。“ 将 日 常 工作 的 改进 制度 化 ”属于 持续 学 习 和 实验 原则 。 














3140 
交互 系统 ( SoE ) 和 记录 系统 ( SoR ) 在 变更 速度 上 有 何 区 别 ? 


A) 一 般 而 言 ，SoE 和 SoR 的 变更 速度 同步 。 
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B) 
O) 
D 


_ 


A) 
B) 


O) 
D 


Nt 


一 般 而 言 ，SoE 的 变更 速度 显著 高 于 SoR。 
一 般 而 言 ，SoE 的 变更 速度 显著 低 于 SoR。 
SoE 和 SoR 间 变 更 速度 的 关系 取决 于 不 同 的 信息 系统 。 











错误 。 一 般 而 言 ，SoE 的 变更 速度 显著 高 于 SoR。 

正确 。SoE 代表 用 户 界 面 。 因 此 ，SoE 的 变更 速度 更 快 。 此 外 ，SoR 的 变更 较为 复杂 。( 文 
献 : A 第 5 章 ) 

错误 。 一 般 而 言 ，SoE 的 变更 速度 显著 高 于 SoR。 

错误 。 可 以 给 出 一 个 通用 说 法 : 一 般 而 言 ，SoE 的 变更 速度 显著 高 于 SoR。 











4140 
让 开发 和 运 维 使 用 共享 工具 的 益处 是 什么 ? 


A 
B) 
O) 
D 


Ne 


Mia 


A) 


B) 
O) 
D) 


生成 统一 的 待 办 事项 列表 ,便于 每 个 人 从 全 局 角度 优先 考虑 改进 项 目 。 
开发 人 员 能 够 得 到 关于 应 用 程序 在 生产 环境 中 运行 表现 的 反馈 ， 其 中 包括 生产 中 断 时 的 修复 。 
使 团队 能 够 在 正常 的 营业 时 间 内 进行 部 署 并 进行 简单 的 转换 。 

将 运 维 的 知识 转换 为 自动 化 代码 ， 这 样 更 加 可 靠 ， 并 且 可 以 被 广泛 地 重复 使 用 














OD 


正确 。 通 过 统一 的 待 办 事项 列表 ， 每 个 人 能 够 从 全 局 角度 优先 考虑 改进 项 目 ， 选 择 对 于 组 
织 具 有 最 高 价值 的 工作 或 对 降低 技术 债务 的 影响 最 大 的 工作 。( 文献 : A 第 6 章 ) 

错误 。 这 是 开发 与 运 维 轮值 值守 的 益处 。 

错误 。 益 处 是 自动 化 和 实现 低 风 险 发 布 。 

错误 。 益 人 处 是 在 服务 团队 中 骨 入 运 维 工 程 师 。 


























[ors 





5/40 
将 运 维 能 力 更 好 地 赋 能 给 开发 团队 ， 可 以 产生 更 多 以 市 场 为 导向 的 成 果 ， 提 高 效率 和 生产 力 。 





以 下 哪 一 项 是 实现 这 一 点 最 有 效 的 方法 ? 


A) 
B) 
O) 
D) 


为 运 维 团 队 派 遗 开 发 人 员 联 络 员 
创建 基础 架构 自 服务 
将 运 维 团 队 外 包 








培训 开发 人 员 ， 使 其 能 够 开展 运 维 工 作 
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A) 错误 。 应 采用 其 他 方式 :“ 为 开发 团队 派遣 运 维 联 络 员 。” 

B) 正确 。 这 是 将 运 维 和 开发 相 结合 的 三 种 综合 策略 中 的 一 种 : 生成 自 服务 能 力 ， 以 便服 务 团 队 
中 的 开发 人 员 具 备 高 生产 力 ; 在 服务 团队 中 安排 运 维 工程 师 ; 如 果 无 法 安排 运 维 工 程 师 ， 为 
服务 团队 派 遗 运 维 联络 员 。( 文献 :A 第 8 童 ) 

C) 错误 。 不 建议 将 外 包 作 为 策略 。 外 包 商 的 员工 与 开发 团队 的 距离 甚至 更 远 。 

D) 错误 。 开 发 人 员 可 以 使 用 基础 设施 即 代码 。 但 这 样 不 会 淘汰 运 维 的 作用 。 
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于 运 维 工程 师 延误 了 新 环境 的 生成 ,银行 需 要 更 长 的 时 间 将 新 的 或 发 生变 化 的 产品 投入 市 场 。 


























以 下 哪 一 项 是 关于 自动 生成 环境 的 正确 说 法 ? 





A) 自动 生成 的 环境 可 用 于 所 有 环境 。 





B) 由 于 安全 限制 ， 自 动 生成 的 环境 可 用 于 生产 环境 以 外 的 所 有 环境 。 
C) 基于 四 眼 原 则 ， 在 生产 中 使 用 自动 生成 的 环境 时 ，DevOps 要 求 运 维 人 员 评 审 。 


D) 基于 四 眼 原则 ， 在 生产 中 使 用 自动 生成 的 环境 时 ，DevOps 要 求 运 维 人 员 的 手动 同意 。 


A) 正确 。 持 续 部 署 不 需要 使 用 脚本 进行 手动 操作 。 这 类 脚本 应 自动 化 。 这 适用 于 所 有 环境 。 
(文献 : A 第 9 章 ) 

B) 错误 。 生 产 环 境 的 生成 和 维护 应 充分 自动 化 。 

C) 错误 。 无 需 评审 自动 化 脚本 。 自 动 化 流程 受 监控 。 

D) 错误 。 无 需 四 眼 原则 指南 。 原 因 在 于 脚本 验收 和 脚本 部 署 工具 都 受 变更 控制 。 
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价值 流 图 过 程 块 应 包含 哪 种 价值 ? 








A) 应 用 程序 遥测 

B) 完整 和 准确 的 百分比 
C) 团队 速率 

D) 在 制品 ( WIP ) 


Net TR. at 
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A 


We 


B) 


© 
D 


一 — 








错误 。 应 用 程序 遥测 用 于 监控 运行 中 的 应 用 程序 的 行为 ， 从 而 报告 程序 的 健康 状况 ， 提 供 
准确 、 快 速 反馈 并 发 现 错误 。 

正确 。 应 包含 在 价值 流 图 过 程 块 内 。 原 因 在 于 这 是 了 解 价值 流 根据 业务 要 求 交付 的 质量 的 
关键 指标 之 一 。( 文 献 : A 第 6 章 ) 

错误 。 团 队 速 率 是 在 冲刺 中 衡量 ， 在 冲刺 会 议 上 使 用 ， 用 于 评估 冲刺 阶段 可 完成 的 工作 量 。 
错误 。 在 制品 是 应 包含 在 或 源 自 于 看 板 的 概念 ， 不 属于 价值 流 图 的 组 成 部 分 ， 也 不 会 为 价 
值 流 分 析 提 供 任何 价值 。 
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为 了 尽量 降低 DevOps 中 的 业务 风险 ， 下 面 哪 一 项 是 版 本 控制 的 主要 目标 ? 


A) 
B) 
O) 
D 


Nt 


A) 


B) 


O) 


D 


Mat 


配置 偏离 理想 状态 时 ,保证 警报 功能 
保证 重新 生成 先前 的 最 佳 环境 状态 的 功能 
保证 重新 生成 生产 环境 以 及 构建 流程 的 功能 
保证 不 同 的 开发 团队 共享 源 代码 的 功能 





























错误 。 尽 管 版 本 控制 非常 关键 ， 便 于 其 他 工具 使 用 相关 信息 发 现 配置 偏离 理想 状态 ， 但 这 
不 是 版 本 控制 的 目标 ， 也 不 是 此 处 的 最 佳 答案 。 这 是 因为 版 本 控制 应 允许 以 更 快 的 速度 重 
新 生成 环境 ， 保 持 服务 和 流 的 质量 。 

错误 。 这 是 版 本 控制 的 益处 ， 但 不 是 在 DevOps 内 的 主要 目标 。 此 外 ， 测 试 环境 通常 针对 各 
次 测试 重新 构建 ， 重 新 生成 先前 的 状态 不 太 有 用 。 
正确 。DevOps 内 的 版 本 控制 应 允许 重新 生成 生产 环境 以 及 构建 流程 。 采 用 此 方法 的 组 织 比 
其 他 组 织 表现 得 更 加 出 色 。( 文 献 : A 第 9 章 ) 
错误 。 这 是 版 本 控制 的 目的 ， 但 前 提 是 仅 以 开发 为 重点 。 这 不 是 在 DevOps 内 的 目标 。 原 因 
在 于 DevOps 内 的 版 本 控制 要 求 所 有 区 域 将 制品 、 工 具 和 流程 存储 其 中 ， 以 实现 性 能 、 流 、 
队 沟 通 及 在 所 有 环境 下 减少 浪费 的 预见 性 。 



























































/ 
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所 有 IT 团队 成 员 集结 到 一 起 ， 共 同 评审 应 进行 的 变更 ， 以 便 进一步 实施 DevOps。 团 队 成 员 需 
要 就 与 DevOps 原则 相符 的 完成 的 定义 (DoD ) 达成 一 致 。 





以 下 哪 一 项 完成 的 定义 ( DoD ) 适用 于 DevOps? 


A) 





代码 已 并 入 主 分 支 ， 并 通过 了 自动 化 单元 测试 。 
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B 
C 


br 


A 


ot 


B 


Wea 


CG 


Nt 








代码 在 开发 人 员 的 电脑 中 如 期 运行 ， 已 通过 单元 测试 。 
代码 在 类 似 生产 的 环境 中 运行 ， 已 通过 用 户 验 收 测试 。 









































错误 。 从 开发 人 员 角 度 ， 这 是 标准 的 完成 的 定义 (DoD ), 但 未 能 实现 DevOps 目标 ， 即 交 
付 业务 价值 。 因 此 ， 完 成 的 定义 ( DoD ) 应 包含 将 工作 代码 传输 至 类 似 生产 的 环境 ， 而 不 是 
并 入 主 分 支 。 

错误 。 所 有 工作 都 在 开发 人 员 的 电脑 中 执行 这 一 情况 并 不 能 保证 其 会 在 类 似 生产 的 环境 中 
运行 。 


正确 。 保 证 代码 如 期 运行 ， 并且 可 传输 。( 文献 :A 第 9 童 ) 
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以 下 哪 一 项 是 实现 环境 搭建 和 环境 配置 自动 化 的 最 有 效 工 具 ? 


A) 
B) 
C 
D) 


_ 


A) 


B) 


C 
D) 


et 











提供 开发 、 测 试 或 验收 环境 的 工 单 系统 

将 生产 环境 设置 复制 到 开发 、 测 试 和 验收 环境 的 工具 
( 为 保持 环境 同步 ) 各 环境 下 手动 分 发 和 维护 的 配置 文件 

便于 程序 员 自 行 变 更 环境 的 基础 设施 即 代码 配置 管理 工具 























错误 。 提 供 环境 的 工 单 系统 会 阻碍 部 署 流水 线 中 的 流动 ， 增 加 了 交接 次 数 ， 因 而 造成 浪费 。 
应 通过 工具 的 使 用 实现 环境 的 自动 提供 。 

错误 。 在 DevOps 内 ， 不 建议 采用 这 种 工作 法 。 环 境 必 须 从 头 开 始 构建 。 此 外 ， 不 允许 将 生 
产 数据 用 于 D-TA 环境 。 

错误 。 环 境 的 配置 文件 必须 自动 分 发 。 

正确 。 这 是 环境 构建 和 配置 自动 化 的 选项 之 一 。 开 发 人 员 可 将 基础 设施 即 代码 用 于 自行 构建 
和 配置 环境 。( 文献 : A 第 9 章 ) 
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自动 化 测试 套件 的 特定 设计 目标 是 尽 可 能 早 地 在 测试 中 找到 错误 。 理 想 自 动 化 测试 金字 塔 模型 




















显示 了 须 执 行 测试 的 正确 顺序 。 


需 首 先 执行 哪 一 个 测试 ? 


A) 


自动 化 API 测试 
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B) 自动 化 组 件 测 试 
C) 自动 化 集成 测试 
D) 自动 化 单元 测试 


MW 





_ 


A) 错误 。 必 须 首先 执行 自动 化 单元 测试 。 在 5 个 测试 中 ， 这 个 测试 排序 第 四 。 
B) 错误 。 必 须 首先 执行 自动 化 单元 测试 。 在 5 个 测试 中 ， 这 个 测试 排序 第 二 。 
C) 错误 。 必 须 首先 执行 自动 化 单元 测试 。 在 5 个 测试 中 ， 这 个 测试 排序 第 三 。 
D) 正确 。 这 个 测试 排序 第 一 。( 文献 : A 第 10 章 ) 


Me 


ee 
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DevOps 团队 希望 通过 测试 驱动 开发 来 提高 速率 。 




















下 面 哪 一 项 是 正确 的 操作 顺序 ? 


A) 重 构 
书写 测试 用 例 
书写 功能 代码 
B) 书写 功能 代码 
书写 测试 用 例 
重 构 
书写 测试 用 例 
书写 功能 代码 
重 构 





C 


Vee 











A) 错误 。 首 先进 行 测试 ， 接 着 编码 。 第 三 步 是 重 构 。 
B) 错误 。 首 先进 行 测试 ， 接 着 编码 。 第 三 步 是 重 构 。 
C) 正确 。 首 先进 行 测 试 ， 接 着 编码 。 第 三 步 是 重 构 。( 文献 : A 第 10 章 ) 
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一 家 保险 公司 聘请 DevOps 专家 为 其 DevOps 团队 的 分 支 策 略 选 择 提供 建议 。DevOps 专家 评估 
了 两 种 策略 : 




















1. 优化 个 人 生产 力 
2. 优化 团队 生产 力 
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关于 这 两 种 策略 ， 下 面 哪 一 种 说 法 是 正确 的 ? 


A) 两 种 策略 产生 的 合并 工作 量 是 相等 的 。 
B) 策略 1 产生 的 合并 工作 量 高 于 策略 2。 
C) 策略 2 产生 的 合并 工作 量 高 于 策略 1。 











Wa 





A) 错误 。 策略 1 导致 一 人 一 分 支 。 因 此 ， 合 并 会 变 为 一 场 璐 梦 。 无 论 使 用 哪个 版 本 的 管理 系 
统 ， 策 略 2 都 更 加 适合 。 

正确 。 个 人 生产 力 优先 意味 着 每 个 DevOps 开发 人 员 一 个 独立 分 支 ， 无 需 合 并 即 可 独立 生产 
软件 。 而 策略 2 实际 上 没有 真正 的 分 文 ， 开 发 是 在 “连续 不 断 的 主线 ”上 进行 。( 文 献 : A 
第 11 章 ) 

错误 。 策 略 2 的 合并 工作 量 更 低 。 这 是 因为 每 个 人 都 在 共同 区 域内 工作 。 





B 


Sa 





C 


SA 
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一 家 零售 公司 彻底 从 瀑布 式 开发 流程 转向 DevOps。 短 时 间 内 作出 了 很 多 选择 。 这 就 产生 了 技术 
址 务 。 例 如 ， 产 品 上 市 时 间 〈time to market ) 显著 增加 。 但 也 有 消除 诸多 延误 的 方法 。 











价值 流 图 显示 20% 的 冲刺 时 间 都 花 在 移植 代码 上 ， 所 有 代码 均 在 单独 的 代码 分 支 上 实现 维护 。 








以 下 哪 种 技术 债务 解决 方案 会 实现 更 快 的 流动 (faster flow ) ? 


A) 采用 基于 主干 的 开发 

B) 在 开发 人 员工 作 站 复制 测试 故障 
C) 开始 金 丝 短发 布 

D) 使 用 更 多 遥测 





ee 


A) 正确 。 基 于 主干 的 开发 意味 着 不 允许 存在 分 支 。 因 此 ， 不 再 需要 合并 。( 文献 : A 第 11 章 ) 
B) 错误 。 问 题 是 在 分 支 造成 合并 过 程 中 的 问题 。 测 试 无 法 解决 延迟 问题 。 

C) 错误 。 金 丝 短发 布 本 会 对 持续 部 署 产生 积极 影响 ， 但 测试 无 法 解决 延迟 问题 。 

D) 错误 。 遥 测 无 法 解决 合并 问题 。 
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实现 高 生产 力 、 可 测试 性 和 安全 的 架构 的 特征 是 什么 ? 






























































A) 定义 含糊 的 接口 

B) 紧 耦 合 

C) 定义 明确 的 API 

A) 错误 。 定 义 明确 的 接口 是 实现 高 生产 力 、 可 测试 性 和 安全 的 架构 的 特征 ， 通 过 强制 说 明 各 个 
模块 如 何 连通 而 实现 。 定 义 含 糊 的 界面 则 相反 。 

B) 错误 。 紧 耦合 架构 为 单 体 应 用 或 包含 连接 非常 紧密 的 模块 。 每 一 次 尝试 提交 代码 至 主干 时 ， 
都 存在 发 生 全 局 故障 的 风险 。 每 一 次 小 变更 都 需要 数 日 大 量 沟 通 、 协 调 以 及 可 能 被 影响 的 团 
队 的 批准 。 

C) 正确 。 定 义 明 确 的 应 用 程序 接口 (API ) 使 得 高 生产 力 、 更 容易 的 服务 测试 和 安全 的 架构 成 
为 可 能 。( 文 献 : A 第 13 章 ) 

16/40 


解决 DevOps 问题 的 最 佳 的 遥测 方法 是 什么 ? 


A) 
B) 
O) 
D) 


A 


Na 


B) 
O) 
D) 









































投资 遥测 工具 非常 重要 ， 重 点 应 为 生产 环境 、 部 署 流 水 线 和 预 生产 环境 。 

投资 遥测 工具 非常 重要 ， 仪 需 重视 生产 环境 。 

投资 遥测 工具 不 重要 。 重 点 是 重启 成 本 更 低 的 宛 余 服务 。 

投资 遥测 工具 不 重要 。 重 点 是 应 用 程序 用 户 。 原 因 在 于 用 户 提供 更 全 面 、 成 本 更 低 的 监控 。 





























正确 。 问 题 不 仅 出 现在 生产 环境 ， 也 会 出 现在 别处 。DevOps 要 求 快 速 反馈 。 反 馈 在 流水 线 
起 点 开始 。( 文 献 : A 第 14 章 ) 

错误 。 仅 重视 生产 环境 是 不 够 的 。 部 署 流水 线 和 预 生产 环境 对 于 尽快 发 现 问题 也 很 重要 。 
错误 。 重 启 的 成 本 并 不 低 。 大 量 生 产 时 间 都 浪费 在 寻找 错误 上 。 

错误 。 如 果 用 户 是 服务 的 唯一 监控 人 ,那么 将 损失 大 量 生产 时 间 。 这 是 因为 监控 能 够 更 快 地 
发 现 问题 所 在 及 出 现 问 题 的 位 置 〈 在 正确 实施 的 情况 下 )， 而 且 并 不 是 所 有 问题 都 是 用 户 发 
现 的 。 仅 仅 是 用 户 可 看 到 的 错误 被 发 现 ， 而 非 那些 发 生 在 隐蔽 位 置 的 错误 。 































































































286 EXIN DevOps Professional 认证 备考 指南 放 模拟 题 





17/40 
在 监控 框架 内 ， 应 从 三 个 层次 收集 数据 。 




















下 面 哪 一 项 不 属于 这 三 层 ? 
























































A) 应 用 程序 

B) 业务 逻辑 

C) 业务 指标 

D) 运 维系 统 

A) 错误 。 应 用 程序 是 三 层 中 的 一 层 ， 数 据 收集 应 在 监控 框架 内 完成 。 

B) 错误 。 业 务 逻 辑 是 三 层 中 的 一 层 ， 数 据 收 集 应 在 监控 框架 内 完成 。 

C) 正确 。 业 务 指 标 不 属于 三 层 中 的 组 成 部 分 ， 数 据 收集 应 在 监控 框架 内 完成 。 业 务 指标 是 监控 
的 结果 。( 文 献 : A 第 14 章 ) 

D) 错误 。 运 维系 统 是 三 层 中 的 一 层 ， 数 据 收集 应 在 监控 框架 内 完成 。 
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自助 遥测 帮助 下 面 哪 一 种 人 员 实 现 增值 ? 


A) 
B) 
O) 
D) 


A) 
B) 
O) 
D) 


仅 开 发 人 员 

仅 开发 人 员 和 运 维 人 员 

仅 开发 人 员 、 运 维 人 员 和 利益 干系 人 
开发 人 员 、 运 维 人 员 、 利 益 干 系 人 以 及 客户 


错误 。 也 为 用 户 、 利 益 干系 人 和 运 维 人 员 增 加 价值 。 

错误 。 也 为 用 户 和 利益 干系 人 增加 价值 。 

错误 。 也 为 用 户 增加 价值 。 

正确 。 自 助 使 用 遥测 为 所 有 访客 增加 价值 。( 文献 : A 第 14 章 ) 
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在 兼 具 自动 化 测试 、 快 速 部 署 流程 和 充分 遥测 的 环境 下 ， 下 面 哪 一 种 方法 为 业务 提供 最 多 
DevOps 方 向 的 益处 ? 
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A) 前 滚 

B) 回 滚 

C) 移 除 有 故障 的 服务 器 
D) 关闭 故障 特性 


盖 














正确 。 尽 管 存在 风险 ， 在 兼 具 自动 化 测试 、 快 速 部 署 流程 和 充分 遥测 的 环境 下 ， 这 个 选择 
非常 安全 。 这 样 有 助 于 快速 确认 生产 中 的 每 一 个 环节 是 否 正确 运行 并 为 业务 增加 新 的 功能 
和 价值 。 附 加 值 是 错误 得 以 纠正 ， 而 不 是 移 除 新 功能 特性 或 有 故障 的 服务 器 。( 文献 ，A 第 
16 章 ) 
错误 。 正 如 “关闭 故障 特性 ”,“ 回 滚 ” 的 作用 是 将 部 署 回 滚 到 先前 的 状态 ， 通 过 移 除 引发 
错误 的 特性 来 解决 问题 。 因 此 ， 这 一 做 法 并 没有 修复 错误 ， 而 且 也 把 新 增加 的 价值 从 生产 
中 去 除了 。 

C) 错误 。 这 个 选项 的 聚焦 于 服务 的 连续 性 。 但 考虑 到 适当 的 流程 、 遥 测 和 测试 落实 到 位 ， 更 
好 的 选项 是 交付 新 的 业务 价值 。 








A 


Na 






































B 


_ 





























D) 错误 。 关 闭 故障 特性 是 风险 最 低 的 选项 ,但 这 一 做 法 并 没有 修复 错误 ， 而 且 也 把 新 增加 的 
价值 从 生产 中 去 除了 。 
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某 软 件 公司 编写 了 下 列 发 布 指导 要 求 。 

' 缺陷 计数 和 严重 程度 : 应 用 程序 是 否 按照 设计 要 求 运行 ? 

' 监控 范围 : 发 生 故 障 时 ， 监 控 范 围 是 否 足以 恢复 服务 ? 

* 系统 架构 : 服务 是 否 紧 耦合 ， 足 以 解决 生产 中 的 高 事件 率 ? 

* 传呼 机 警报 类 型 /频率 : 应 用 程序 是 否 在 生产 中 生成 过 量 警 报 ? 












































下 面 哪 一 项 发 布 指导 要 求 不 符合 DevOps 工作 法 ? 




















A) 缺陷 计数 和 严重 程度 : 应 用 程序 是 否 确实 按照 设计 要 求 运行 ? 
B) 监控 范围 : 发 生 故 障 时 ， 监 控 范围 是 否 足 以 恢复 服务 ? 

C) 系统 架构 : 服务 是 否 紧 耦 合 ， 足 以 解决 生产 中 的 高 事件 率 ? 
D) 传呼 机 警报 类 型 /频率 : 应 用 程序 是 否 在 生产 中 生成 过 量 警 报 ? 


Nn 






































_ 





A) 错误 。 这 个 要 求 符合 DevOps 工作 法 。 
B) 错误 。 这 个 要 求 符 合 DevOps 工作 法 。 


Ma 
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O) 


D) 


正确 。 在 DevOps 工作 法 内 ， 应 采用 松 耘 合 架构 ， 而 不 是 紧 耦 合 架构 。 服 务 应 为 松 斐 合 ， 从 
而 为 生产 过 程 中 的 高 速 变更 和 部 署 提 供 支 持 。( 文 献 : A 第 16 章 ) 
错误 。 这 个 要 求 符合 DevOps 工作 法 。 
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以 下 哪 一 项 是 交接 就 绪 评 审 ( HRR ) [ 而 非 投产 就 绪 评审 〈LRR )] 的 独 有 特点 ? 








A) HRR 更 严格 ， 验 收 标准 更 高 。 

B) HRR 由 产品 团队 自行 汇报 。 

C) HRR 需要 在 新 服务 对 外 发 布 前 签字 。 

D) HRR 需要 在 新 服务 接收 到 真实 生产 流量 前 签字 。 

A) 正确 。 这 是 HRR 的 独特 之 处 。 原 因 在 于 HRR 在 服务 过 渡 到 运 维 管理 状态 时 需要 签署 确认 验 
证 通过 。( 文献 : A 第 16 章 ) 

B) 错误 。 这 是 LRR ( 而 非 HRR ) 的 独 有 特点 。 

C) 错误 。 这 是 LRR (而 非 HRR ) 的 独 有 特点 。 

D) 错误 。 这 是 LRR ( 而 非 HRR ) 的 独 有 特点 。 
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在 交互 、 用 户 体验 ( UX ) 设计 领域 , 最 强大 的 方法 之 一 是 情景 调查 。 
以 下 哪 一 项 是 关于 情景 调查 最 佳 说 法 ? 


A) 
B 
C 
D) 


AN 


A 
B 
人 
D 


en i 

















产品 团队 要 求 用 户 对 团队 对 应 用 程序 演示 做 出 响应 。 

产品 团队 向 用 户 询问 ， 应 用 程序 在 家 中 的 使 用 情况 。 

产品 团队 观察 用 户 在 用 户 的 日 常 使 用 状态 下 ， 使 用 此 应 用 的 行为 。 

在 用 户 验收 测试 期 间 ， 产 品 团队 在 配备 测试 设备 的 专用 房间 内 研究 用 户 行为 。 
















































































错误 。 现 场 调查 是 观察 用 户 如 何 使 用 应 用 程序 ， 而 不 是 由 供应 商 演 示 应 用 程序 。 

错误 。 现 场 调查 是 直接 观察 用 户 如 何 使 用 应 用 程序 ， 但 不 涉及 询问 应 用 程序 的 用 途 。 

正确 。 此 方法 是 观察 客户 如 何在 自然 环境 下 使 用 应 用 程序 。( 文 献 : A 第 16 章 ) 

错误 。 现 场 调查 是 观察 用 户 如 何在 自然 环境 下 《〈 而 不 是 在 配备 测试 设备 的 专用 房间 内 ) 使 
用 应 用 程序 。 
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初创 公司 ABC 在 根据 用 户 期 望 开发 移动 导航 应 用 程序 的 特性 上 面临 严峻 挑战 。 
下 面 哪 一 项 是 确保 UX 移动 导航 应 用 程序 的 特性 与 用 户 期 望 相符 的 最 佳 方法 ? 









































A) 在 移动 导航 应 用 程序 中 ， 更 为 全 面 的 开发 足够 多 的 特性 ， 从 而 为 客户 提供 更 高 级 和 更 多 的 
选择 ， 使 其 通过 更 多 选项 来 自 定义 功能 ， 来 优化 用 户 体验 。 

B) 开发 多 个 版 本 的 移动 导航 应 用 程序 ， 随 机 选择 部 分 用 户 ， 展 示 不 同 版 本 的 应 用 ， 来 获取 并 

对 比 用 户 体验 。 版 本 分 为 主 控 型 版 本 与 升级 型 版 本 ， 用 户 被 随机 挑选 并 使 用 其 中 一 个 版 本 

修改 移动 导航 应 用 程序 当前 的 UX 特性 ， 以 便 ABC 在 不 牺牲 质量 的 前 提 下 保留 UX 的 核心 

功能 。 

提前 三 周 发 布 移动 导航 应 用 程序 的 一 个 新 特性 ， 从 而 收集 客户 对 此 特性 的 反馈 。 


















































C 





_ 





D 





_ 


错误 。 我 们 发 现 特定 的 特性 未 能 达到 预期 结果 后 ， 新 增 更 多 功能 或 提升 特性 可 能 会 被 其 他 
新 的 特性 取代 ， 确 保 表 现 不 佳 的 特性 不 会 实现 其 预期 的 业务 目标 。 

正确 。 在 现代 UX 实践 中 最 常用 的 A/B 测试 方法 。 如 网 站 可 以 随机 选择 不 同 客户 访问 其 不 
同 特性 的 网 页 ， 向 其 展示 两 种 特性 页 面 中 的 一 版 ， 呈 现 为 主 控 版 本 (A ) 或 升级 版 本 (B ) 
的 一 种 。 根 据 对 这 用 户 在 两 类 站 点 后 续 行 为 的 统计 分 析 ， 我 们 论证 他 们 的 价值 产 出 是 否 存 
在 显著 差异 ， 从 而 在 升级 和 结论 之 间 获 取 论 证 依据 。( 文献 :A 第 17 章 ) 

C) 错误 。 我 们 发 现 特定 的 特性 未 能 达到 预期 结果 后 ， 修 改 此 特性 的 优先 级 并 不 高 ， 所 以 我 们 

要 确保 识别 出 哪些 表现 不 佳 的 特性 无 法 实现 其 预期 的 业务 目标 。 
D) 错误 。 一 般 而 言 ， 每 场 实验 都 非常 费时 ， 需 要 数 周 、 甚 至 数 月 才能 完成 。 
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A 





Mee 


























B 


Se 
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开发 团队 可 通过 下 列 哪 种 方法 促进 交付 预期 的 业务 成 果 ? 


A) 认真 开展 大 量 实验 
B) 完整 的 回归 测试 
C) 假设 驱动 开发 
D) SDLC 


Wt 











错误 。 这 种 方法 不 能 促进 交付 预期 的 业务 成 果 。 
错误 。 这 种 方法 不 能 促进 交付 预期 的 业务 成 果 。 
正确 。 这 种 方法 能 够 最 有 效 地 促进 交付 的 业务 成 果 满足 客户 预期 。( 文 献 : A 第 17 章 ) 


A 
B 
C 


Ne 




















ee 
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D) 错误 。 这 种 方法 不 能 促进 交付 预期 的 业务 成 果 。 
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ABC 公司 在 系统 “工资 单 应 用 程序 ”上 ， 遇 到 了 代码 变更 的 问题 。 目 前 ， 已 经 执行 的 代码 变更 
未 能 有 完善 的 记录 。 例 如 ， 最 新 的 代码 修复 记录 如 下 :“ 修 复 #1801 人 公 
司 注意 到 这 是 描述 不 当 的 “拉动 ”记录 请 求 。 























恰当 的 “拉动 ”请 求 包括 以 下 内 容 : 
' 为 什么 要 进行 修复 ? 
“ 由 谁 进行 修复 ? 


恰当 的 “拉动 ”请 求 必须 包含 哪些 其 他 内 容 ? 


A) 受到 修复 影响 的 业务 部 门 
B) 执行 修复 的 潜在 风险 以 及 对 策 
C) 执行 修复 的 支持 发 布 计划 表 


A) 错误 。 修 复 的 潜在 风险 以 及 对 策 必须 包含 在 内 。 




















B) 正确 。 有 效 的 拉动 请 求 需要 提供 下 列 详细 信息 : 为 什么 进行 修复 ; 由 谁 进行 修复 ; 执行 修 
复 的 潜在 风险 及 对 策 。( 文献 : A 第 18 章 ) 

C) 错误 。 执 行 修复 的 潜在 风险 以 及 对 策 必须 包含 在 内 。 
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请 考虑 以 下 情境 


“在 开发 人 员 查 看 代码 的 同时 ， 同 事 提 供 反 馈 。” 























此 处 描述 的 是 哪 一 种 评审 方法 ? 


A) 观察 者 评审 
B) 结对 编程 
C) 同行 评审 
D) 工具 辅助 评审 
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A) 
B) 
O) 
D) 











正确 。 观 察 者 评审 方法 是 编写 代码 后 编写 者 与 同事 的 相互 作用 。( 文献 : A 第 18 章 ) 
错误 。 这 种 评审 方法 是 在 编码 过 程 中 ( 而 不 是 编码 之 后 ) 进行 的 。 

错误 。 这 种 方法 在 编码 之 后 进行 ,但 编写 者 无 需 在 场 。 

错误 。 这 种 评审 由 工具 执行 ， 无 需 人 员 参 与 。 
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下 面 哪 种 评审 方法 会 直接 减少 编码 错误 ? 































































































A) 观察 者 评审 

B) 结对 编程 

C) 同行 评审 

D) 工具 辅助 评审 

A) 错误 。 人 允许 在 浏览 已 编写 的 软件 的 同时 进行 反馈 。 

B) 正确 。 结 对 编程 表示 共同 编写 软件 。 一 人 打字 ， 男 一 人 检查 。 这 样 有 助 于 直接 反馈 ,减少 
错误 。( 文献 : A 第 18 章 ) 

C) 错误 。 同 行 评审 是 在 软件 编写 完成 后 进行 的 评审 。 

D) 错误 。 工 具 辅 助 评审 的 反馈 有 限 ， 诸 多 检查 在 记录 代码 以 后 进行 。 
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云 服务 提供 商 希 望 通过 使 用 猿 狂 军团 ( 可 靠 性 监控 服务 ) 提高 服务 容量 。 





这 种 情况 需要 使 用 下 面 哪 种 猴子 ? 


A) 
B) 
〇 ) 


A 


Nt 


B 


_ 


C 


We 


医生 猴子 ( Doctor Monkey ) 
看 门 猴子 ( Janitor Monkey ) 
延迟 猴子 ( Latency Monkey ) 














错误 。 医 生 猴 子 开 始 在 各 实例 下 运行 健康 检查 。 发 现 不 健康 的 实例 后 ， 如 果 负 责 人 未 能 及 时 
解决 根源 问题 ， 医 生 猴 子 会 主动 关闭 该 实例 。 这 样 并 未 提升 容量 。 

正确 。 看 门 猴子 通过 搜索 并 处 理 未 使 用 的 资源 ， 确 保 云 环境 的 运行 不 存在 混乱 和 浪费 。( 文 
献 : A 附录 9 ) 

错误 。 延 迟 猴 子 通过 在 RESTful 进行 模拟 的 延迟 或 宕 机 ， 从 而 模拟 服务 退化 ， 验 证 其 确保 依 
赖 的 服务 机 制 可 以 适当 响应 。 这 样 并 未 有 改善 容量 的 功能 。 
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ABC 公司 采用 DevOps 工作 法 ,希望 推广 开放 、 人 免责 的 学 习 环 境 。 近 期 ，ABC 公司 经 历 了 一 次 
重大 的 应 用 程序 故障 ， 但 随后 恢复 了 应 用 程序 服务 。 














事后 分 析 会 议 上 必须 完成 的 第 一 要 务 ? 


以 下 哪 一 项 是 不 指责 











A) 为 重大 的 应 用 程序 故障 期 间 发 生 的 相关 事件 建立 时 间 表 。 
B) 确定 对 策 ， 防 止 未 来 再 次 发 生 重大 的 应 用 程序 故障 。 


C) 确定 重大 的 应 用 程序 故障 的 根本 原因 ， 提 出 纠正 措施 ， 防 止 未 来 再 次 发 生 重 大 的 应 用 程序 
故障 。 
D) 在 整个 组 织 都 可 以 接近 的 集中 位 置 公布 事后 回顾 ， 从 重大 的 应 用 程序 故障 中 吸取 教训 。 






































A) 正确 。 不 指责 事后 分 析 会 议 的 第 一 要 务 是 记录 对 发 生 的 相关 事件 的 时 间 线 的 最 佳 理解 情况 。 
包括 采取 的 所 有 措施 及 具体 时 间 (最 好 有 耻 C、Slack 等 聊天 记录 证 明 )、 观 察 到 的 影响 ( 最 
好 是 采用 生产 遥测 得 出 的 具体 指标 的 形式 ， 而 不 仅仅 是 个 人 的 主观 叙述 )、 遵 循 的 调查 路 
径 、 考 虑 的 解决 方法 。( 文 献 : A 第 19 章 ) 





































































































B) 错误 。 确 定 对 策 不 是 召开 不 指责 事后 分 析 会 议 的 第 一 要 务 。 这 个 措施 会 在 建立 时 间 表 后 实施 。 

C) 错误 。 确 定 根本 原因 不 是 召开 不 指责 事后 分 析 会 议 的 第 一 要 务 。 这 个 措施 会 在 建立 时 间 表 
后 实施 。 

D) 错误 。 公 布 事后 剖析 结果 不 是 召开 免责 事后 分 析 会 议 的 第 一 要 务 。 这 个 措施 仪 会 在 充分 记录 
事后 分 析 结 果 后 实施 。 
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在 通过 注入 生产 故障 来 产生 恢复 能 力 的 实践 中 ， 要 求 以 下 哪 一 项 ? 


A) 定义 故障 模式 

B) 组 织 事后 回顾 会 议 
C) 培训 人 员 

D) 使 用 测试 环境 











A) 正确 。 故 障 模式 定义 很 重要 ， 有 助 于 保证 这 些 故障 模式 按照 设计 要 求 运行 。( 文 献 : A 第 19 
章 ) 
错误 。 事 后 回顾 会 议 不 属于 注入 方法 的 组 成 部 分 。 














B 


ee 
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O) 
D) 


错误 。 通 过 故障 注入 吸取 经 验 。 
错误 。 仅 需要 生产 环境 。 
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以 下 哪 一 项 是 执行 演练 日 (game day ) 计划 的 第 一 个 步骤? 

























































































A) 定义 和 执行 演习 

B) 识别 并 解决 问题 ， 接 着 测试 

C) 计划 断 电 

D) 准备 和 消除 单 点 故障 

A) 错误 。 计 划 的 第 一 个 步骤 是 “通过 计划 电厂 断 电 的 方式 注入 大 规模 的 故障 ”。“ 制 定 计 划 并 执 
行 演 习 ” 是 游戏 设计 者 的 任务 。 

B) 错误 。 计 划 的 第 一 个 步 又 是 “通过 计划 电厂 断 电 的 方式 注入 大 规模 的 故障 ”。 

C) 正确 。 步 又 如 下 : () 第 一 个 步骤 是 断 电 ; (2) 根 据 此 计划 ， 团 队 采 取 措 施 ， 为 断 电 做 准备 ; 
(3) 措 施 可 以 包含 需 测 试 的 流程 ;，(4) 按 计划 进行 断 电 ; (5) 必 须 遵循 预定 义 的 流程 进行 。 
(文献 : A 第 19 章 ) 

D) 错误 。 计 划 的 第 一 个 步骤 是 “通过 计划 电厂 断 电 的 方式 注入 大 规模 的 故障 ”。 
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以 下 哪 一 项 属于 非 功能 需求 ? 


A) 
B) 
O) 


A) 
B) 
O) 




















在 不 同 的 版 本 间 兼 具 向 前 和 向 后 的 兼容 性 
可 以 生成 被 推迟 的 工作 进度 的 报表 
为 酒店 预订 系统 登记 财务 交易 




















正确 。 版 本 间 的 正 向 兼容 性 和 反 向 兼容 性 属于 非 功能 需求 。( 文 献 : A 第 20 章 ) 
错误 。 报 表 是 一 种 功能 。 因 此 ， 不 属于 非 功能 需求 。 
错误 。 财 务 交易 是 一 种 功能 。 非 功能 需求 大 多 和 系统 的 质量 相关 。 
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为 了 成 功 创建 可 重复 使 用 的 运 维 用 户 故事 ， 应 执行 以 下 哪 项 操作 ? 
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A) 将 运 维 用 户 故 事 与 相关 的 研发 功能 提升 和 缺陷 关联 起 来 

B) 定义 交接 流程 中 的 操作 ， 接 着 使 用 适当 工具 和 辅助 性 的 工作 流 将 这 些 操作 自动 化 

C) 确认 所 有 必要 的 运 维 操作 和 须 完 成 操作 的 人 员 

A) 错误 。 为 了 顺利 生成 可 重复 使 用 的 运 维 用 户 故 事 ， 不 一 定 要 考虑 这 个 操作 。 

B) 正确 。 为 了 顺利 生成 可 重复 使 用 的 运 维 用 户 故 事 ， 必 须 考虑 这 个 操作 。( 文 献 : A 第 20 章 ) 
C) 错误 。 为 了 顺利 生成 可 重复 使 用 的 运 维 用 户 故 事 ， 不 一 定 要 考虑 这 个 操作 。 
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请 考虑 以 下 要 素 : 


1. 变更 请 求 

2. 部 署 流水 线 工具 

3. 编译 后 的 可 执行 文件 

4. 操作 指南 和 标准 

其 中 哪 两 个 要 素 一 般 存储 在 统一 的 共享 源 代码 存储 库 里 ? 








A) 1 和 2 
B) 1 和 4 
C) 2 和 3 
D) 2 和 4 








A) 错误 。 变 更 请 求 ( 1 ) 不 是 具备 知识 性 和 可 学 习性 的 制品 。 因 此 ， 不 应 该 存储 在 统一 共享 源 
代码 存储 库 里 。 变 更 请 求 已 经 记录 在 产品 的 待 办 事项 列表 中 ， 而 不 应 该 在 共享 源 代码 存储 

库 里 。 部 署 流水 线 (2 ) 工具 应 当 存 储 在 统一 共享 源 代码 存储 库 里 。 

错误 。 变 更 请 求 ( 1 ) 不 是 具备 知识 性 和 可 学 习性 的 制品 。 因 此 ， 不 应 该 存储 在 统一 共享 源 

代码 存储 库 里 。 变 更 请 求 已 经 记录 在 产品 的 待 办 事项 列表 中 ， 而 不 应 该 在 共享 源 代码 存储 

库 里 。 操 作 指 南 和 标准 (4 ) 应 当 存 储 在 统一 共享 源 代码 存储 库 里 。 

错误 。 编 译 后 的 可 执行 文件 (3 ) 不 是 具备 知识 性 和 可 学 习性 的 制品 。 因 此 ， 不 应 存储 在 统 

一 共享 源 代码 存储 库 里 。 可 执行 文件 以 二 进 制 的 形式 存储 在 制品 仓库 ( 部署 流 水 线 的 输出 

端 )， 而 非 统 一 共享 源 代 码 存 储 库 ( 部 署 流水 线 的 输入 端 )。 部 署 流 水 线 (2 ) 工具 应 当 存 储 

在 统一 共享 源 代码 存储 库 里 。 

正确 。 部 署 流水 线 工 具 (2 ) 及 操作 指南 和 标准 (4 ) 是 具备 知识 性 和 可 学 习性 的 制品 。 因 

此 ， 要 存储 在 统一 共享 源 代码 存储 库 里 。( 文献 : A 第 20 章 ) 
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将 局 部 发 现 转 化 成 全 局 改进 成 果 的 目标 是 什么 ? 


A 
B) 
C 
D 


Na 


忆 一 


A 
B) 
O) 
D 


Na 


_ 


提升 实践 的 状态 ,不 只 是 Dev 和 Ops 实践 ， 还 包含 整个 组 织 各 个 方面 的 实践 。 
使 所 有 新 服务 和 现 有 服务 都 能 够 更 加 方便 地 利用 到 集体 知识 。 

创造 协作 性 更 好 的 企业 文化 以 及 更 安全 、 更 具 弹性 的 系统 。 

强化 让 每 个 人 都 感受 到 和 舒适、 可 靠 的 文化 。 

















正确 。 这 是 将 局 部 发 现 转化 成 全 局 改进 的 目标 。( 文 献 : A 第 20 章 ) 
错误 。 这 个 目标 是 通过 成 文 的 非 功 能 性 需求 (NFR ) 进行 运 维基 础 设计 。 
错误 。 这 个 目标 是 预 留 时 间 ， 创 建 组 织 级 学 习 和 改进 。 

错误 。 这 个 目标 是 促进 并 将 学 习 融 入 于 日 常 工作 中 。 
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开发 人 员 可 以 为 任何 工程 师 提 供 便利 ,便于 他 们 在 应 用 程序 和 环境 中 准确 地 生成 并 使 用 日 志 记 
录 和 加 密 标 准 。 
































以 下 哪 一 个 不 是 通过 共享 的 源 代码 存储 库 提供 支持 的 ? 


A 
B) 
O) 
D 


Na 


_ 


A 


Mea 


B 


_ 


C 


Me 


D 


_ 


代码 库 及 其 推荐 的 配置 

部 署 包 

操作 系统 (OS ) 包 和 应 用 的 构建 
加 密 管理 工具 




















错误 。 代 码 库 及 其 推荐 配置 提供 了 有 效 的 安全 配置 设置 ， 专 为 其 应 用 于 应 用 程序 的 组 件 设计 
中 ， 从 而 便于 工程 师 准 确 地 生成 并 使 用 日 志 记 录 和 加 密 标准 。 

正确 。 部 署 包 是 工程 师 ( 运 维 ) 而 非 开 发 人 员 (开发 ) 的 交付 物 ， 因 而 不 提供 支持 。 问 题 是 
开发 人 员 可 以 采取 哪些 措施 使 工程 师 在 应 用 程序 中 准确 生成 并 使 用 日 志 记 录 和 加 密 标 准 。 
(文献 : A 第 22 章 ) 

错误 。OS 包 和 构 应 用 的 构建 ， 专 为 在 应 用 程序 中 使 用 的 组 件 而 设计 ， 为 其 提供 有 效 的 安全 
配置 设置 ， 使 工程 师 能 够 更 方便 地 在 应 用 程序 中 准确 生成 并 使 用 日 志 记 录 和 加 密 标 准 。 
错误 。 加 密 管理 工具 提供 有 效 的 安全 配置 设置 ， 如 连接 设置 、 加 密 秘 钥 等 ， 使 工程 师 能 够 更 
方便 地 在 应 用 程序 中 准确 生成 并 使 用 日 志 记录 和 加 密 标准 。 
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开发 人 员 编 写 了 新 的 代码 时 ， 始 终 伴随 着 非 授 权 访 问 的 风险 。 


以 下 哪 一 种 控制 措施 不 能 规避 此 风险 ? 








A) 代码 评审 
B) 代码 测试 
C) 有 效 地 打 补 丁 
D) 渗透 测试 








_ 








错误 。 代 码 评审 可 以 发 现 恶意 软件 代码 ( 利用 这 种 代码 ， 可 以 经 由 后 门 访问 )。 
B) 错误 。 代 码 测试 可 以 发 现 非 授 权 访 问 的 情况 。 
C) 正确 。 有 效 地 打 补 丁 不 能 发 现 开发 人 员 新 编写 的 代码 ， 只 能 解决 缺陷 。( 文献 ， A 第 22 章 ) 
D) 错误 。 渗 透 测试 可 以 发 现 应 用 程序 中 生成 的 或 故意 留 下 的 漏洞 ( 可 以 利用 漏洞 进行 非 授 权 
访问 )。 


A 


Er 了 Wu 人 





Mt 
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下 列 哪 种 情况 属于 应 用 程序 的 遥测 ? 


A) 操作 系统 ( OS ) 的 变更 
B) 每 日 评审 系统 日 志 

C) 安全 组 的 变更 

D) 用 户 密码 的 重 置 





A) 错误 。 这 属于 应 用 程序 宿主 基础 设施 环境 的 遥测 范围 ， 并 非 专门 针对 应 用 程序 。 
B) 错误 。 这 属于 应 用 程 节目 


百 主 基 
宿主 基础 设施 环境 的 遥测 范围 ， 并 非 专门 针对 应 用 程序 。 
C) 错误 。 这 属于 应 用 程序 宿主 基 


| J 








J 


























序 
序 


宿主 基础 设施 环境 的 遥测 范围 ， 并 非 专门 针对 应 用 程序 。 


D) 正确 。 这 是 针对 应 用 程序 的 遥测 范围 。( 文献: A 第 22 章 ) 
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以 下 哪个 流程 支持 合 规 性 要 求 ， 同 时 也 是 降低 运 维 和 安全 风险 的 主要 控制 措施 ? 

















A) 变更 管理 流程 
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B) 
O) 
D 


_ 


A 


Ng 


B 


NS 


O) 


D 


_ 


配置 管理 流程 
发 布 和 部 署 管理 流程 
服务 级 别管 理 流程 























正确 。 几 乎 所 有 的 大 型 IT en 这 是 降低 运 维和 安全 风险 的 主 
要 控制 措施 。 合 规 性 和 安全 管理 员 依靠 变更 管理 流程 ， 以 满足 合 规 性 要 求 。 他 们 一 般 要 求 提 
供 证 明 ， 即 所 有 变更 已 获得 了 适当 授权 。 A 第 23 章 ) 

错误 。 本 流程 提供 有 关 服 务 和 各 配置 项 的 信息 ， 可 用 于 发 现 并 分 析 潜 在 风险 和 改进 目标 ,但 
并 不 有 助 于 降低 风险 。 配 置 管理 计划 、 实 施 、 控 制 、 报 告 并 核实 配置 项 。 

错误 。 发 布 和 部 署 管理 流程 落实 软件 发 布 审 批 的 流程 ， 包 括 诸 多 变更 的 审批 。 变 更 管理 流程 
控制 、 审 批 变 更 ， 接 着 协调 发 布 和 部 署 管理 流程 中 各 方 的 努力 。 

错误 。SLM 流程 为 按 需 交付 服务 级 别提 供 保障 ， 满 足 业 务 要 求 。 此 流程 声明 了 所 需 的 合 规 
性 和 安全 要 求 ， 但 并 非 直接 有 助 于 降低 风险 。 
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以 下 哪 一 项 属于 采用 职责 分 离 控制 措施 的 缺点 ? 


A) 


B) 


O) 


A) 


B) 


© 


Me 

















职责 分 离 控制 措施 通常 会 减少 工程 师 收 到 的 关于 其 工作 的 反馈 ， 并 使 接收 反馈 的 速度 变 慢 ， 
阻碍 了 开发 工作 。 

职责 分 离 控制 措施 要 求 开 发 人 员 向 代码 管理 员 提交 变更 内 容 ， 由 代码 管理 员 评 审 、 审 批 变 
更 ， 接 着 再 应 用 到 生产 。 

职责 分 离 控制 措施 要 求 检查 每 一 次 代码 提交 ， 并 进行 代码 评审 ， 从 而 为 工作 质量 提供 必要 保 
证 。 但 职责 分 离 控制 措施 会 产生 不 必要 的 工作 。 




































































正确 。 职 责 分 离 通 常会 减少 工程 师 收 到 的 关于 其 工作 的 反馈 并 使 接收 反馈 的 速度 变 慢 ， 阻 碍 
工作 。 这 样 会 妨碍 工程 师 对 工作 质量 承担 全 部 责任 ， 也 减弱 了 企业 创建 组 织 级 学 习 的 能 

因此 ， 在 可 能 情况 下 ， 我 们 应 该 避免 将 职责 分 离 作为 控制 措施 ， 而 应 选择 结对 编程 、 持 续 检 
查 每 一 次 代码 提交 、 代 码 评 审 等 控制 措施 。( 文献 ，A 第 23 章 ) 

错误 。 这 是 过 时 的 支持 软件 开发 生命 周期 ( SDLC ) 的 方法 ,而 不 是 DevOps。DevOps 推荐 
的 控制 措施 包括 结对 编程 、 持 续 检查 每 一 次 代码 提交 及 代码 评审 。 这 些 控制 措施 为 工作 质量 
提供 必要 保证 。 此 外 ， 将 这 些 控制 措施 落实 到 位 后 ， 如 果 要 求职 责 分离 ， 可 以 利用 已 经 建立 
的 控制 措施 ， 证 明 我 们 实现 了 等 效 结果 。 
错误 。 我 们 应 该 避免 将 职责 分 离 作 为 控制 措施 ， 而 应 选择 结对 编程 、 持 续 检 查 每 次 代码 提 
交 、 代 码 评 审 等 控制 措施 。 此 外 ， 将 这 些 控制 措施 落实 到 位 后 ， 如 果 要 求职 责 分 离 ， 可 以 利 
用 已 经 建立 的 控制 措施 ， 证 明 我 们 实现 了 等 效 结果 。 
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4. 试题 评分 


如 下 表格 为 套 样题 的 正确 答案 选项 ， 供 参考 使 用 。 
















































































编号 答案 编号 答案 
1 C 21 A 
2 A 22 C 
3 B 23 B 
4 A 24 C 
5 B 25 B 
6 A 26 A 
7 B 27 B 
8 C 28 B 
9 C 29 A 
10 D 30 A 
11 D 31 C 
12 C 32 A 
13 B 33 B 
14 A 34 D 
15 C 35 A 
16 A 36 B 
17 C 37 C 
18 D 38 D 
19 A 39 A 
20 C 40 A 
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获取 刊 刮 卡 上 的 折扣 码 ， 有 机 会 享受 DevOpsDays 中 国 站 活动 和 DevOps Professional 认证 考试 
的 九 折 优 惠 。 折 扣 码 使 用 规则 的 最 终 解释 权 归 DevOpsDays 中 国 站 主办 方 〈 微 信 公 众 号 : 
OfficialDevOpsDays ) 和 EXIN 国际 信息 科学 考试 学 会 ( 微 信 公众 号 ;: ExamlInstitute ) 所 有 。 
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